Merge pull request #94 from fact-project/update_write_data

maxnoe · web-flow · commit ba602d1159bf · 2018-02-01T21:46:47.000+01:00
Add docstring and fix typo in kwarg in write_data
diff --git a/fact/VERSION b/fact/VERSION
@@ -1 +1 @@
-0.15.1
+0.16.0
diff --git a/fact/io.py b/fact/io.py
@@ -25,13 +25,39 @@
 native_byteorder = native_byteorder = {'little': '<', 'big': '>'}[sys.byteorder]
 
 
-def write_data(df, file_path, key='data', use_hp5y=False, **kwargs):
+def write_data(df, file_path, key='data', use_h5py=True, **kwargs):
+    '''
+    Write a pandas DataFrame to several output formats, determined by the
+    extension of `file_path`
+
+    Supported file types are:
+        * hdf5, used when extensions are `.hdf`, `.hdf5` or `.h5`.
+          By default h5py with one dataset per column is used.
+          Pandas to_hdf5 is used if `use_h5py=False`
+        * json, if extension is json
+        * jsonlines if extension is `jsonl` or `jsonline`
+        * csv, if extension is `csv`
+
+    Arguments
+    ---------
+
+    df: pd.DataFrame
+        DataFrame to save
+    file_path: str
+        Path to the outputfile
+    key: str
+        Groupkey, only used for hdf5
+    use_h5py: bool
+        wheither to write h5py style or pandas style hdf5
+
+    All other key word arguments are passed to the actual writer functions.
+    '''
 
     name, extension = path.splitext(file_path)
 
     if extension in ['.hdf', '.hdf5', '.h5']:
-        if use_hp5y is True:
-            to_h5py(file_path, df, key=key, **kwargs)
+        if use_h5py is True:
+            to_h5py(df, file_path, key=key, **kwargs)
         else:
             df.to_hdf(file_path, key=key, **kwargs)
 
@@ -232,7 +258,7 @@ def check_extension(file_path, allowed_extensions=allowed_extensions):
         raise IOError('Allowed formats: {}'.format(allowed_extensions))
 
 
-def to_h5py(filename, df, key='data', mode='a', dtypes=None, index=True, **kwargs):
+def to_h5py(df, filename, key='data', mode='a', dtypes=None, index=True, **kwargs):
     '''
     Write pandas dataframe to h5py style hdf5 file
 
diff --git a/tests/test_io.py b/tests/test_io.py
@@ -14,7 +14,7 @@ def test_to_h5py():
     })
 
     with tempfile.NamedTemporaryFile() as f:
-        to_h5py(f.name, df, key='test')
+        to_h5py(df, f.name, key='test')
 
         with h5py.File(f.name, 'r') as hf:
 
@@ -40,7 +40,7 @@ def test_to_h5py_string():
     })
 
     with tempfile.NamedTemporaryFile() as f:
-        to_h5py(f.name, df, key='test')
+        to_h5py(df, f.name, key='test')
         df2 = read_h5py(f.name, key='test')
 
         assert all(df.dtypes == df2.dtypes)
@@ -59,7 +59,7 @@ def test_to_h5py_datetime():
     })
 
     with tempfile.NamedTemporaryFile() as f:
-        to_h5py(f.name, df, key='test')
+        to_h5py(df, f.name, key='test')
         df2 = read_h5py(f.name, key='test')
 
         for col in df2.columns:
@@ -82,8 +82,8 @@ def test_to_h5py_append():
     })
 
     with tempfile.NamedTemporaryFile() as f:
-        to_h5py(f.name, df1, key='test', index=False)
-        to_h5py(f.name, df2, key='test', mode='a', index=False)
+        to_h5py(df1, f.name, key='test', index=False)
+        to_h5py(df2, f.name, key='test', mode='a', index=False)
 
         df_read = read_h5py(f.name, key='test')
         df_written = pd.concat([df1, df2], ignore_index=True)
@@ -105,8 +105,8 @@ def test_to_h5py_append_second_group():
     })
 
     with tempfile.NamedTemporaryFile() as f:
-        to_h5py(f.name, df1, key='g1', index=False)
-        to_h5py(f.name, df2, key='g2', index=False)
+        to_h5py(df1, f.name, key='g1', index=False)
+        to_h5py(df2, f.name, key='g2', index=False)
 
         df_g1 = read_h5py(f.name, key='g1')
         df_g2 = read_h5py(f.name, key='g2')
@@ -247,7 +247,7 @@ def test_write_lists_h5py():
     })
 
     with tempfile.NamedTemporaryFile(suffix='.hdf5') as f:
-        to_h5py(f.name, df)
+        to_h5py(df, f.name)
 
         df = read_h5py(f.name, columns=['x'])