Merge branch 'main' into tongy/removeBindPart2

tongyu-microsoft · web-flow · commit a78372893c7b · 2022-07-09T20:05:46.000-07:00
diff --git a/responsibleai/responsibleai/rai_insights/rai_insights.py b/responsibleai/responsibleai/rai_insights/rai_insights.py
@@ -29,12 +29,19 @@
 _TARGET_COLUMN = 'target_column'
 _TASK_TYPE = 'task_type'
 _CLASSES = 'classes'
+_FEATURE_COLUMNS = 'feature_columns'
+_FEATURE_RANGES = 'feature_ranges'
 _CATEGORICAL_FEATURES = 'categorical_features'
 _META_JSON = Metadata.META_JSON
 _TRAIN_LABELS = 'train_labels'
 _JSON_EXTENSION = '.json'
 _PREDICT = 'predict'
 _PREDICT_PROBA = 'predict_proba'
+_COLUMN_NAME = 'column_name'
+_RANGE_TYPE = 'range_type'
+_UNIQUE_VALUES = 'unique_values'
+_MIN_VALUE = 'min_value'
+_MAX_VALUE = 'max_value'
 
 
 class RAIInsights(RAIBaseInsights):
@@ -92,6 +99,11 @@ def __init__(self, model: Optional[Any], train: pd.DataFrame,
             target_column=target_column,
             classes=classes
         )
+        self._feature_columns = \
+            test.drop(columns=[target_column]).columns.tolist()
+        self._feature_ranges = RAIInsights._get_feature_ranges(
+            test=test, categorical_features=categorical_features,
+            feature_columns=self._feature_columns)
         self.categorical_features = categorical_features
 
         super(RAIInsights, self).__init__(
@@ -528,11 +540,36 @@ def _save_metadata(self, path):
             _TARGET_COLUMN: self.target_column,
             _TASK_TYPE: self.task_type,
             _CATEGORICAL_FEATURES: self.categorical_features,
-            _CLASSES: classes
+            _CLASSES: classes,
+            _FEATURE_COLUMNS: self._feature_columns,
+            _FEATURE_RANGES: self._feature_ranges
+
         }
         with open(top_dir / _META_JSON, 'w') as file:
             json.dump(meta, file)
 
+    @staticmethod
+    def _get_feature_ranges(test, categorical_features, feature_columns):
+        """Get feature ranges like min, max and unique values
+        for all columns"""
+        result = []
+        for col in feature_columns:
+            res_object = {}
+            if (col in categorical_features):
+                unique_value = test[col].unique()
+                res_object[_COLUMN_NAME] = col
+                res_object[_RANGE_TYPE] = "categorical"
+                res_object[_UNIQUE_VALUES] = unique_value.tolist()
+            else:
+                min_value = float(test[col].min())
+                max_value = float(test[col].max())
+                res_object[_COLUMN_NAME] = col
+                res_object[_RANGE_TYPE] = "integer"
+                res_object[_MIN_VALUE] = min_value
+                res_object[_MAX_VALUE] = max_value
+            result.append(res_object)
+        return result
+
     @staticmethod
     def _load_metadata(inst, path):
         """Load the metadata.
@@ -562,6 +599,9 @@ def _load_metadata(inst, path):
             classes=classes
         )
 
+        inst.__dict__['_' + _FEATURE_COLUMNS] = meta[_FEATURE_COLUMNS]
+        inst.__dict__['_' + _FEATURE_RANGES] = meta[_FEATURE_RANGES]
+
     @staticmethod
     def load(path):
         """Load the RAIInsights from the given path.
diff --git a/responsibleai/tests/causal/conftest.py b/responsibleai/tests/causal/conftest.py
@@ -15,7 +15,7 @@
 @pytest.fixture(scope='session')
 def adult_data():
     X_train_df, X_test_df, y_train, y_test,\
-        _, _, target_name, _ = create_adult_income_dataset()
+        _, _, target_name, _, _, _ = create_adult_income_dataset()
     train_df = copy.deepcopy(X_train_df)
     test_df = copy.deepcopy(X_test_df)
     train_df[target_name] = y_train
diff --git a/responsibleai/tests/causal/test_causal_general.py b/responsibleai/tests/causal/test_causal_general.py
@@ -12,7 +12,8 @@ def test_causal_classification_scikitlearn_issue():
     # This test gets stuck on SciKit-Learn v1.1.0
     # See PR #1429
     data_train, data_test, _, _, categorical_features, \
-        _, target_name, classes = create_adult_income_dataset()
+        _, target_name, classes, _, _ = \
+        create_adult_income_dataset()
 
     rai_i = RAIInsights(
         model=None,
diff --git a/responsibleai/tests/common_utils.py b/responsibleai/tests/common_utils.py
@@ -134,6 +134,8 @@ def create_adult_income_dataset():
     target_name = 'income'
     target = dataset[target_name]
     classes = list(np.unique(target))
+    feature_columns = dataset.drop(columns=[target_name]).columns.tolist()
+    feature_range_keys = ['column_name', 'range_type', 'unique_values']
     categorical_features = list(set(dataset.columns) -
                                 set(continuous_features) -
                                 set([target_name]))
@@ -142,7 +144,8 @@ def create_adult_income_dataset():
         dataset, target,
         test_size=5000, random_state=7, stratify=target)
     return data_train, data_test, y_train, y_test, categorical_features, \
-        continuous_features, target_name, classes
+        continuous_features, target_name, classes, \
+        feature_columns, feature_range_keys
 
 
 def create_complex_classification_pipeline(
diff --git a/responsibleai/tests/databalanceanalysis/conftest.py b/responsibleai/tests/databalanceanalysis/conftest.py
@@ -20,6 +20,8 @@ def adult_data():
         _,
         target_col,
         _,
+        _,
+        _,
     ) = create_adult_income_dataset()
     train_df = copy.deepcopy(data_train)
     test_df = copy.deepcopy(data_test)
diff --git a/responsibleai/tests/test_model_analysis.py b/responsibleai/tests/test_model_analysis.py
@@ -110,7 +110,8 @@ def test_model_analysis_binary(self, manager_type):
     def test_model_analysis_binary_mixed_types(self, manager_type):
 
         data_train, data_test, y_train, y_test, categorical_features, \
-            continuous_features, target_name, classes = \
+            continuous_features, target_name, classes, \
+            feature_columns, feature_range_keys = \
             create_adult_income_dataset()
         X_train = data_train.drop([target_name], axis=1)
 
diff --git a/responsibleai/tests/test_rai_insights.py b/responsibleai/tests/test_rai_insights.py
@@ -109,7 +109,8 @@ def test_rai_insights_binary(self, manager_type):
     def test_rai_insights_binary_mixed_types(self, manager_type):
 
         data_train, data_test, y_train, y_test, categorical_features, \
-            continuous_features, target_name, classes = \
+            continuous_features, target_name, classes, \
+            feature_columns, feature_range_keys = \
             create_adult_income_dataset()
         X_train = data_train.drop([target_name], axis=1)
 
diff --git a/responsibleai/tests/test_rai_insights_save_and_load_scenarios.py b/responsibleai/tests/test_rai_insights_save_and_load_scenarios.py
@@ -53,7 +53,7 @@ def test_rai_insights_empty_save_load_save(self):
             # Validate, but this isn't the main check
             validate_rai_insights(
                 rai_2, X_train, X_test,
-                LABELS, ModelTask.CLASSIFICATION, None)
+                LABELS, ModelTask.CLASSIFICATION, None, None, None)
 
             # Save again (this is where Issue #1046 manifested)
             rai_2.save(save_2)
@@ -68,7 +68,8 @@ def test_rai_insights_empty_save_load_save(self):
                                               ManagerNames.COUNTERFACTUAL])
     def test_rai_insights_save_load_add_save(self, manager_type):
         data_train, data_test, y_train, y_test, categorical_features, \
-            continuous_features, target_name, classes = \
+            continuous_features, target_name, classes, \
+            feature_columns, feature_range_keys = \
             create_adult_income_dataset()
         X_train = data_train.drop([target_name], axis=1)
 
@@ -120,7 +121,9 @@ def test_rai_insights_save_load_add_save(self, manager_type):
             validate_rai_insights(
                 rai_2, data_train, data_test,
                 target_name, ModelTask.CLASSIFICATION,
-                categorical_features=categorical_features)
+                categorical_features=categorical_features,
+                feature_range_keys=feature_range_keys,
+                feature_columns=feature_columns)
 
             # Save again (this is where Issue #1046 manifested)
             rai_2.save(save_2)
@@ -135,7 +138,8 @@ def test_load_missing_dirs(self, target_dir):
         # The exception is the Explainer, which always creates a file
         # in its subdirectory
         data_train, data_test, y_train, y_test, categorical_features, \
-            continuous_features, target_name, classes = \
+            continuous_features, target_name, classes, \
+            feature_columns, feature_range_keys = \
             create_adult_income_dataset()
         X_train = data_train.drop([target_name], axis=1)
 
@@ -201,7 +205,8 @@ def test_loading_rai_insights_without_model_file(self):
                                               ManagerNames.COUNTERFACTUAL])
     def test_rai_insights_add_save_load_save(self, manager_type):
         data_train, data_test, y_train, y_test, categorical_features, \
-            continuous_features, target_name, classes = \
+            continuous_features, target_name, classes, \
+            feature_columns, feature_range_keys = \
             create_adult_income_dataset()
         X_train = data_train.drop([target_name], axis=1)
 
@@ -253,7 +258,9 @@ def test_rai_insights_add_save_load_save(self, manager_type):
             validate_rai_insights(
                 rai_2, data_train, data_test,
                 target_name, ModelTask.CLASSIFICATION,
-                categorical_features=categorical_features)
+                categorical_features=categorical_features,
+                feature_range_keys=feature_range_keys,
+                feature_columns=feature_columns)
 
             # Save again (this is where Issue #1081 manifested)
             rai_2.save(save_2)
@@ -265,14 +272,21 @@ def validate_rai_insights(
     test_data,
     target_column,
     task_type,
-    categorical_features
+    categorical_features,
+    feature_range_keys,
+    feature_columns
 ):
-
     pd.testing.assert_frame_equal(rai_insights.train, train_data)
     pd.testing.assert_frame_equal(rai_insights.test, test_data)
     assert rai_insights.target_column == target_column
     assert rai_insights.task_type == task_type
     assert rai_insights.categorical_features == (categorical_features or [])
+    if feature_range_keys is not None:
+        assert feature_range_keys.sort() == \
+            list(rai_insights._feature_ranges[0].keys()).sort()
+    if feature_columns is not None:
+        assert rai_insights._feature_columns == (feature_columns or [])
+    assert target_column not in rai_insights._feature_columns
     if task_type == ModelTask.CLASSIFICATION:
         classes = train_data[target_column].unique()
         classes.sort()