Black code style applied

baturayo · baturayo · commit 499943c93012 · 2020-09-30T10:08:43.000+02:00
diff --git a/ml_skeleton_py/etl/generate_dataset.py b/ml_skeleton_py/etl/generate_dataset.py
@@ -61,18 +61,22 @@ def remove_outliers(df: pd.DataFrame) -> pd.DataFrame:
 
     # Fit a basic local outlier factor to detect outliers
     lof = LocalOutlierFactor()
-    df_outlier_removed['is_outlier'] = lof.fit_predict(
-        df_outlier_removed[["V10", "V12", "V14"]])
+    df_outlier_removed["is_outlier"] = lof.fit_predict(
+        df_outlier_removed[["V10", "V12", "V14"]]
+    )
 
     df_outlier_removed = df_outlier_removed[
-        df_outlier_removed.is_outlier != -1]  # -1 represents outliers
+        df_outlier_removed.is_outlier != -1
+        ]  # -1 represents outliers
 
     # Report number of removed rows
     n_filtered_rows = df_outlier_removed.shape[0]
-    logger.info("{} outliers are filtered out of {} rows."
-                .format(n_rows - n_filtered_rows, n_filtered_rows)
-                )
+    logger.info(
+        "{} outliers are filtered out of {} rows.".format(
+            n_rows - n_filtered_rows, n_filtered_rows
+        )
+    )
 
     # Remove temporary is_outlier column
-    df_outlier_removed = df_outlier_removed.drop('is_outlier', axis=1)
+    df_outlier_removed = df_outlier_removed.drop("is_outlier", axis=1)
     return df_outlier_removed
diff --git a/ml_skeleton_py/model/train.py b/ml_skeleton_py/model/train.py
@@ -20,9 +20,7 @@
 logging.getLogger().setLevel(logging.INFO)
 
 
-def train(
-        dataset_loc: str, model_dir: str, model_name: str = "lr"
-) -> None:
+def train(dataset_loc: str, model_dir: str, model_name: str = "lr") -> None:
     """
     Train models using X_train and y_train with a specific classifier.
 
@@ -72,8 +70,10 @@ def train(
 
 
 def dump_model(
-        pipeline: sklearn.pipeline, model_name: str,
-        training_score: np.ndarray, model_dir: str
+        pipeline: sklearn.pipeline,
+        model_name: str,
+        training_score: np.ndarray,
+        model_dir: str,
 ) -> None:
     """
     Dump serialized trained pipeline to disk
diff --git a/ml_skeleton_py/settings.py b/ml_skeleton_py/settings.py
@@ -7,40 +7,41 @@
 # Directories
 ROOT_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
 
-DATA_DIR = os.path.join(ROOT_DIR, 'data')
+DATA_DIR = os.path.join(ROOT_DIR, "data")
 
-DATA_RAW = os.path.join(DATA_DIR, 'raw')
+DATA_RAW = os.path.join(DATA_DIR, "raw")
 
-DATA_TRANSFORMED = os.path.join(DATA_DIR, 'transformed')
+DATA_TRANSFORMED = os.path.join(DATA_DIR, "transformed")
 
-DATA_STAGING = os.path.join(DATA_DIR, 'staging')
+DATA_STAGING = os.path.join(DATA_DIR, "staging")
 
-DATA_PREDICTIONS = os.path.join(DATA_DIR, 'predictions')
+DATA_PREDICTIONS = os.path.join(DATA_DIR, "predictions")
 
-ETL_DIR = os.path.join(ROOT_DIR, 'ml_skeleton_py', 'etl')
+ETL_DIR = os.path.join(ROOT_DIR, "ml_skeleton_py", "etl")
 
-MODEL_DIR = os.path.join(ROOT_DIR, 'models')
+MODEL_DIR = os.path.join(ROOT_DIR, "models")
 
-MODEL_METADATA_DIR = os.path.join(ROOT_DIR, 'models', 'metadata')
+MODEL_METADATA_DIR = os.path.join(ROOT_DIR, "models", "metadata")
 
 # Model Variables
-TARGET_VARIABLE = 'Class'
+TARGET_VARIABLE = "Class"
 
-DATASET_NAME = 'creditcard.csv'
+DATASET_NAME = "creditcard.csv"
 
 # ---------- PYTEST VARIABLES ---------
 # TEST Variables
-TEST_DATASET_NAME = 'sample_creditcard.csv'
+TEST_DATASET_NAME = "sample_creditcard.csv"
 
 # TEST DIRECTORIES
-ASSETS_DIR = os.path.join(ROOT_DIR, 'tests', 'assets')
-
-EXPECTED_TEMP_TRANSFORMED_DATA_LOC = os.path.join(ASSETS_DIR, "transformed",
-                                                  "temp_sample_creditcard.csv")
-EXPECTED_TRANSFORMED_DATA_LOC = os.path.join(ASSETS_DIR, "transformed",
-                                             TEST_DATASET_NAME)
-UNEXPECTED_TRANSFORMED_DATA_LOC = os.path.join(ASSETS_DIR, "transformed",
-                                               "dummy.csv")
+ASSETS_DIR = os.path.join(ROOT_DIR, "tests", "assets")
+
+EXPECTED_TEMP_TRANSFORMED_DATA_LOC = os.path.join(
+    ASSETS_DIR, "transformed", "temp_sample_creditcard.csv"
+)
+EXPECTED_TRANSFORMED_DATA_LOC = os.path.join(
+    ASSETS_DIR, "transformed", TEST_DATASET_NAME
+)
+UNEXPECTED_TRANSFORMED_DATA_LOC = os.path.join(ASSETS_DIR, "transformed", "dummy.csv")
 
 EXPECTED_RAW_DATA_LOC = os.path.join(ASSETS_DIR, "raw", TEST_DATASET_NAME)
 UNEXPECTED_RAW_DATA_LOC = os.path.join(ASSETS_DIR, "raw", "dummy.csv")
diff --git a/scripts/generate_dataset.py b/scripts/generate_dataset.py
@@ -14,8 +14,11 @@ def generate() -> None:
     Load the dataset, remove outliers and store in data directory.
     """
     parser = argparse.ArgumentParser()
-    parser.add_argument("--dataset", default="creditcard.csv",
-                        help="raw dataset to generate train and test data")
+    parser.add_argument(
+        "--dataset",
+        default="creditcard.csv",
+        help="raw dataset to generate train and test data",
+    )
     args = parser.parse_args()
 
     input_location = os.path.join(s.DATA_RAW, args.dataset)
diff --git a/scripts/train.py b/scripts/train.py
@@ -8,13 +8,16 @@ def train() -> None:
     Train a model on a dataset and store the model.
     """
     parser = argparse.ArgumentParser()
-    parser.add_argument("--dataset",
-                        default="creditcard.csv",
-                        help="raw dataset to generate train and test data")
-    parser.add_argument("--model-name",
-                        default="lr",
-                        help="the serialized model name default lr "
-                             "referring to logistic regression")
+    parser.add_argument(
+        "--dataset",
+        default="creditcard.csv",
+        help="raw dataset to generate train and test data",
+    )
+    parser.add_argument(
+        "--model-name",
+        default="lr",
+        help="the serialized model name default lr " "referring to logistic regression",
+    )
     args = parser.parse_args()
     model.train(args.dataset, args.model_name)
 
diff --git a/setup.py b/setup.py
@@ -8,17 +8,14 @@
     "tox>=3.14.0",
     "flake8>=3.7.9",
     "flake8-annotations>=1.1.3",
-    "pytest-cov>=2.8.1"
+    "pytest-cov>=2.8.1",
 ]
 
 serve_deps = [
     "dploy-kickstart>=0.1.5",
 ]
 
-extras = {
-    "test": test_deps,
-    "serve": serve_deps
-}
+extras = {"test": test_deps, "serve": serve_deps}
 
 setup(
     name="ml-skeleton-py",
@@ -28,9 +25,7 @@
     author_email="info@dataroots.io",
     description="Description of my ml-skeleton package",
     packages=find_packages(),
-    install_requires=[
-        "pandas>=1.1.0",
-        "scikit-learn>=0.23.2"
-    ],
+    install_requires=["pandas>=1.1.0", "scikit-learn>=0.23.2"],
     tests_require=test_deps,
-    extras_require=extras)
+    extras_require=extras,
+)
diff --git a/tests/test_generate_dataset.py b/tests/test_generate_dataset.py
@@ -8,12 +8,39 @@
 from ml_skeleton_py.etl.generate_dataset import remove_outliers
 
 THIS_DIR = os.path.dirname(os.path.abspath(__file__))
-EXPECTED_HEADERS = ['Time', 'V1', 'V2', 'V3', 'V4',
-                    'V5', 'V6', 'V7', 'V8', 'V9', 'V10',
-                    'V11', 'V12', 'V13', 'V14', 'V15', 'V16',
-                    'V17', 'V18', 'V19', 'V20', 'V21', 'V22',
-                    'V23', 'V24', 'V25', 'V26', 'V27', 'V28',
-                    'Amount', 'Class']
+EXPECTED_HEADERS = [
+    "Time",
+    "V1",
+    "V2",
+    "V3",
+    "V4",
+    "V5",
+    "V6",
+    "V7",
+    "V8",
+    "V9",
+    "V10",
+    "V11",
+    "V12",
+    "V13",
+    "V14",
+    "V15",
+    "V16",
+    "V17",
+    "V18",
+    "V19",
+    "V20",
+    "V21",
+    "V22",
+    "V23",
+    "V24",
+    "V25",
+    "V26",
+    "V27",
+    "V28",
+    "Amount",
+    "Class",
+]
 
 EXPECTED_N_HEADERS = len(EXPECTED_HEADERS)
 UNEXPECTED_N_HEADERS = len(EXPECTED_HEADERS) - 10
@@ -22,10 +49,8 @@
 @pytest.mark.parametrize(
     "raw_data_loc, transformed_data_loc, error_expected",
     [
-        (s.EXPECTED_RAW_DATA_LOC,
-         s.EXPECTED_TEMP_TRANSFORMED_DATA_LOC, False),
-        (s.UNEXPECTED_RAW_DATA_LOC,
-         s.EXPECTED_TEMP_TRANSFORMED_DATA_LOC, True),
+        (s.EXPECTED_RAW_DATA_LOC, s.EXPECTED_TEMP_TRANSFORMED_DATA_LOC, False),
+        (s.UNEXPECTED_RAW_DATA_LOC, s.EXPECTED_TEMP_TRANSFORMED_DATA_LOC, True),
     ],
 )
 def test_generate(
diff --git a/tests/test_predict.py b/tests/test_predict.py
@@ -7,44 +7,110 @@
 from ml_skeleton_py.model import train
 from ml_skeleton_py.model.predict import load_model
 
-features_1 = [-0.51056756, -4.76915766, 4.17380769, -6.18019076,
-              5.54479825, -6.07673393, -2.83891627, -12.14473542,
-              11.95168444, -5.89969894, -12.93298794, 4.58542528,
-              -13.04122239, 0.80026314, -15.05300726, 0.80569352,
-              -11.45602963, -23.21915935, -7.54677977, 3.40316942,
-              0.04731062, 6.27192486, 0.1867837, -5.35273187,
-              0.65159854, -0.06661776, 0.71556094, 1.68012583,
-              -1.25077894, -0.30741284]
-
-features_2 = [-0.51056756, -4.76915766, 4.17380769, -6.18019076,
-              5.54479825, -6.07673393, -2.83891627, -12.14473542,
-              11.95168444, -5.89969894, -12.93298794, 4.58542528,
-              -13.04122239, 0.80026314, -15.05300726, 0.80569352,
-              -11.45602963, -23.21915935, -7.54677977, 3.40316942,
-              0.04731062, 6.27192486, 0.1867837, -5.35273187,
-              0.65159854, -0.06661776, 0.71556094, 1.68012583,
-              ]
-
-features_3 = [-0.51056756, -4.76915766, 4.17380769, -6.18019076,
-              5.54479825, None, None, None,
-              11.95168444, -5.89969894, -12.93298794, 4.58542528,
-              -13.04122239, 0.80026314, -15.05300726, 0.80569352,
-              -11.45602963, -23.21915935, -7.54677977, 3.40316942,
-              0.04731062, 6.27192486, 0.1867837, -5.35273187,
-              0.65159854, -0.06661776, 0.71556094, 1.68012583,
-              -1.25077894, -0.30741284]
+features_1 = [
+    -0.51056756,
+    -4.76915766,
+    4.17380769,
+    -6.18019076,
+    5.54479825,
+    -6.07673393,
+    -2.83891627,
+    -12.14473542,
+    11.95168444,
+    -5.89969894,
+    -12.93298794,
+    4.58542528,
+    -13.04122239,
+    0.80026314,
+    -15.05300726,
+    0.80569352,
+    -11.45602963,
+    -23.21915935,
+    -7.54677977,
+    3.40316942,
+    0.04731062,
+    6.27192486,
+    0.1867837,
+    -5.35273187,
+    0.65159854,
+    -0.06661776,
+    0.71556094,
+    1.68012583,
+    -1.25077894,
+    -0.30741284,
+]
+
+features_2 = [
+    -0.51056756,
+    -4.76915766,
+    4.17380769,
+    -6.18019076,
+    5.54479825,
+    -6.07673393,
+    -2.83891627,
+    -12.14473542,
+    11.95168444,
+    -5.89969894,
+    -12.93298794,
+    4.58542528,
+    -13.04122239,
+    0.80026314,
+    -15.05300726,
+    0.80569352,
+    -11.45602963,
+    -23.21915935,
+    -7.54677977,
+    3.40316942,
+    0.04731062,
+    6.27192486,
+    0.1867837,
+    -5.35273187,
+    0.65159854,
+    -0.06661776,
+    0.71556094,
+    1.68012583,
+]
+
+features_3 = [
+    -0.51056756,
+    -4.76915766,
+    4.17380769,
+    -6.18019076,
+    5.54479825,
+    None,
+    None,
+    None,
+    11.95168444,
+    -5.89969894,
+    -12.93298794,
+    4.58542528,
+    -13.04122239,
+    0.80026314,
+    -15.05300726,
+    0.80569352,
+    -11.45602963,
+    -23.21915935,
+    -7.54677977,
+    3.40316942,
+    0.04731062,
+    6.27192486,
+    0.1867837,
+    -5.35273187,
+    0.65159854,
+    -0.06661776,
+    0.71556094,
+    1.68012583,
+    -1.25077894,
+    -0.30741284,
+]
 
 # Need to train first to test predict
 train(s.EXPECTED_TRANSFORMED_DATA_LOC, s.EXPECTED_MODEL_LOC, "test_model")
 
 
 @pytest.mark.parametrize(
     "features, error_expected",
-    [
-        (features_1, False),
-        (features_2, True),
-        (features_3, True),
-    ],
+    [(features_1, False), (features_2, True), (features_3, True), ],
 )
 def test_pred(features: list, error_expected: bool) -> None:
     """
diff --git a/tests/test_train.py b/tests/test_train.py