Testing pipeline with GridSearchCV

devforfu · devforfu · commit 89e6d1163dd8 · 2018-09-05T12:40:25.000+05:00
diff --git a/sklearn_pandas/dataframe_mapper.py b/sklearn_pandas/dataframe_mapper.py
@@ -39,6 +39,12 @@ def _build_feature(columns, transformers, options={}):
     return (columns, _build_transformer(transformers), options)
 
 
+def _build_feature_name(values):
+    if isinstance(values, list):
+        values = '-'.join([str(value) for value in values])
+    return values
+
+
 def _get_feature_names(estimator):
     """
     Attempt to extract feature names based on a given estimator
@@ -420,7 +426,11 @@ def get_params(self, deep=True):
         return out
 
     def set_params(self, **params):
-        features = dict(self.features)
+        features = {}
+        for column_names, transformers in self.features:
+            key = _build_feature_name(column_names)
+            features[key] = transformers
+
         assignment = defaultdict(dict)
 
         for key, value in params.items():
@@ -442,5 +452,3 @@ def set_params(self, **params):
 
         for instance in transformers_instances:
             instance.set_params(**assignment[id(instance)])
-
-
diff --git a/tests/test_dataframe_mapper.py b/tests/test_dataframe_mapper.py
@@ -16,6 +16,7 @@
 from scipy import sparse
 from sklearn import __version__ as sklearn_version
 from sklearn.cross_validation import cross_val_score as sklearn_cv_score
+from sklearn.grid_search import GridSearchCV as sklearn_grid_search
 from sklearn.datasets import load_iris
 from sklearn.pipeline import Pipeline
 from sklearn.svm import SVC
@@ -113,7 +114,7 @@ def transform(self, X):
 
 class Adder(BaseEstimator, TransformerMixin):
 
-    def __init__(self, num_to_add):
+    def __init__(self, num_to_add=0):
         self.num_to_add = num_to_add
 
     def fit(self, X, y=None):
@@ -125,7 +126,7 @@ def transform(self, X):
 
 class Divider(BaseEstimator, TransformerMixin):
 
-    def __init__(self, denominator):
+    def __init__(self, denominator=1):
         self.denominator = denominator
 
     def fit(self, X, y=None):
@@ -1068,3 +1069,28 @@ def test_setting_parameters_to_a_list_of_transformers():
 
     assert adder.num_to_add == 0
     assert divider.denominator == 1
+
+
+def test_compliant_with_grid_search(iris_dataframe):
+    pipeline = Pipeline([
+        ('mapper', DataFrameMapper([
+            (['petal length (cm)'], StandardScaler()),
+            (['petal width (cm)'], StandardScaler()),
+            (['sepal length (cm)'], StandardScaler()),
+            (['sepal width (cm)'], StandardScaler()),
+        ])),
+        ('classifier', SVC(kernel='linear'))
+    ])
+    param_grid = {
+        'mapper__petal length (cm)__with_mean': [True, False],
+        'mapper__petal width (cm)__with_mean': [True, False],
+        'mapper__sepal length (cm)__with_mean': [True, False],
+        'mapper__sepal width (cm)__with_mean': [True, False]
+    }
+    data = iris_dataframe.drop("species", axis=1)
+    labels = iris_dataframe["species"]
+
+    grid_search = sklearn_grid_search(pipeline, param_grid=param_grid)
+    grid_search.fit(data, labels)
+
+    assert len(grid_search.grid_scores_) == 2**len(param_grid)