skip grid search cv in build leaf if param_dict is empty; version 0.2.4

ZebinYang · ZebinYang · commit f36ea22cbdee · 2021-12-27T20:28:43.000+08:00
diff --git a/examples/demo.ipynb b/examples/demo.ipynb
@@ -5,8 +5,8 @@
    "execution_count": 1,
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2021-12-27T11:58:43.079438Z",
-     "start_time": "2021-12-27T11:58:41.821923Z"
+     "end_time": "2021-12-27T12:22:23.721251Z",
+     "start_time": "2021-12-27T12:22:22.456359Z"
     }
    },
    "outputs": [],
@@ -29,11 +29,11 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": 2,
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2021-12-27T12:07:47.437564Z",
-     "start_time": "2021-12-27T12:07:47.428224Z"
+     "end_time": "2021-12-27T12:22:23.745780Z",
+     "start_time": "2021-12-27T12:22:23.722805Z"
     }
    },
    "outputs": [],
@@ -128,11 +128,11 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 16,
+   "execution_count": 3,
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2021-12-27T12:10:02.283742Z",
-     "start_time": "2021-12-27T12:10:02.097688Z"
+     "end_time": "2021-12-27T12:22:28.522606Z",
+     "start_time": "2021-12-27T12:22:28.338619Z"
     }
    },
    "outputs": [],
@@ -209,6 +209,8 @@
     }
    ],
    "source": [
+    "# here we use LogisticRegressor in sklearn\n",
+    "# reg_lambda corresponds to parameter \"C\", which is inverse of regularization strength.\n",
     "clf = GLMTreeClassifier(max_depth=3, min_samples_leaf=50, reg_lambda=np.logspace(-5, 5, 10).tolist(),\n",
     "                        n_split_grid=20, n_screen_grid=5, n_feature_search=10)\n",
     "clf.fit(train_x, train_y)\n",
@@ -217,57 +219,19 @@
     "roc_auc_score(train_y, pred_train.ravel()), roc_auc_score(test_y, pred_test.ravel())"
    ]
   },
-  {
-   "cell_type": "code",
-   "execution_count": 18,
-   "metadata": {
-    "ExecuteTime": {
-     "end_time": "2021-12-27T12:11:03.435992Z",
-     "start_time": "2021-12-27T12:10:29.328703Z"
-    }
-   },
-   "outputs": [
-    {
-     "ename": "TypeError",
-     "evalue": "__init__() got an unexpected keyword argument 'alpha'",
-     "output_type": "error",
-     "traceback": [
-      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
-      "\u001b[0;31mTypeError\u001b[0m                                 Traceback (most recent call last)",
-      "\u001b[0;32m/tmp/ipykernel_37837/3864539870.py\u001b[0m in \u001b[0;36m<module>\u001b[0;34m\u001b[0m\n\u001b[1;32m      1\u001b[0m clf = GLMTreeClassifier(max_depth=1, min_samples_leaf=50, reg_lambda=[0],\n\u001b[1;32m      2\u001b[0m                         n_split_grid=20, n_screen_grid=5, n_feature_search=10)\n\u001b[0;32m----> 3\u001b[0;31m \u001b[0mclf\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mfit\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mtrain_x\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mtrain_y\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m      4\u001b[0m \u001b[0mpred_train\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mclf\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mpredict_proba\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mtrain_x\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;36m1\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m      5\u001b[0m \u001b[0mpred_test\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mclf\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mpredict_proba\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mtest_x\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;36m1\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-      "\u001b[0;32m~/anaconda3/envs/py37/lib/python3.7/site-packages/simtree/mobtree.py\u001b[0m in \u001b[0;36mfit\u001b[0;34m(self, x, y)\u001b[0m\n\u001b[1;32m    293\u001b[0m             \u001b[0;32mif\u001b[0m \u001b[0mis_leaf\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    294\u001b[0m                 node_id = self.add_node(parent_id, is_left, is_leaf, depth,\n\u001b[0;32m--> 295\u001b[0;31m                                 None, None, impurity, sample_indice)\n\u001b[0m\u001b[1;32m    296\u001b[0m             \u001b[0;32melse\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    297\u001b[0m                 node_id = self.add_node(parent_id, is_left, is_leaf, depth,\n",
-      "\u001b[0;32m~/anaconda3/envs/py37/lib/python3.7/site-packages/simtree/mobtree.py\u001b[0m in \u001b[0;36madd_node\u001b[0;34m(self, parent_id, is_left, is_leaf, depth, feature, threshold, impurity, sample_indice)\u001b[0m\n\u001b[1;32m    231\u001b[0m         \u001b[0mn_samples\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mlen\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0msample_indice\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    232\u001b[0m         \u001b[0;32mif\u001b[0m \u001b[0mis_leaf\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m--> 233\u001b[0;31m             \u001b[0mpredict_func\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mestimator\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mbest_impurity\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mbuild_leaf\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0msample_indice\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m    234\u001b[0m             node = {\"node_id\": node_id, \"parent_id\": parent_id, \"depth\": depth, \"feature\": feature, \"impurity\": best_impurity,\n\u001b[1;32m    235\u001b[0m                   \u001b[0;34m\"n_samples\"\u001b[0m\u001b[0;34m:\u001b[0m \u001b[0mn_samples\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m\"is_left\"\u001b[0m\u001b[0;34m:\u001b[0m \u001b[0mis_left\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m\"is_leaf\"\u001b[0m\u001b[0;34m:\u001b[0m \u001b[0mis_leaf\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0;34m\"value\"\u001b[0m\u001b[0;34m:\u001b[0m \u001b[0mnp\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mmean\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0my\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0msample_indice\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m,\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-      "\u001b[0;32m~/anaconda3/envs/py37/lib/python3.7/site-packages/simtree/glmtree.py\u001b[0m in \u001b[0;36mbuild_leaf\u001b[0;34m(self, sample_indice)\u001b[0m\n\u001b[1;32m     96\u001b[0m                                       cv=5, random_state=self.random_state)\n\u001b[1;32m     97\u001b[0m             \u001b[0;32melse\u001b[0m\u001b[0;34m:\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0;32m---> 98\u001b[0;31m                 \u001b[0mbest_estimator\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mLogisticRegression\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0malpha\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mreg_lambda\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0;36m0\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mprecompute\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0;32mFalse\u001b[0m\u001b[0;34m,\u001b[0m \u001b[0mrandom_state\u001b[0m\u001b[0;34m=\u001b[0m\u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mrandom_state\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n\u001b[0m\u001b[1;32m     99\u001b[0m \u001b[0;34m\u001b[0m\u001b[0m\n\u001b[1;32m    100\u001b[0m             \u001b[0mmx\u001b[0m \u001b[0;34m=\u001b[0m \u001b[0mself\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mx\u001b[0m\u001b[0;34m[\u001b[0m\u001b[0msample_indice\u001b[0m\u001b[0;34m]\u001b[0m\u001b[0;34m.\u001b[0m\u001b[0mmean\u001b[0m\u001b[0;34m(\u001b[0m\u001b[0;36m0\u001b[0m\u001b[0;34m)\u001b[0m\u001b[0;34m\u001b[0m\u001b[0;34m\u001b[0m\u001b[0m\n",
-      "\u001b[0;31mTypeError\u001b[0m: __init__() got an unexpected keyword argument 'alpha'"
-     ]
-    }
-   ],
-   "source": [
-    "clf = GLMTreeClassifier(max_depth=1, min_samples_leaf=50, reg_lambda=[0],\n",
-    "                        n_split_grid=20, n_screen_grid=5, n_feature_search=10)\n",
-    "clf.fit(train_x, train_y)\n",
-    "pred_train = clf.predict_proba(train_x)[:, 1]\n",
-    "pred_test = clf.predict_proba(test_x)[:, 1]\n",
-    "roc_auc_score(train_y, pred_train.ravel()), roc_auc_score(test_y, pred_test.ravel())"
-   ]
-  },
   {
    "cell_type": "code",
    "execution_count": null,
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2021-12-27T12:11:03.437503Z",
-     "start_time": "2021-12-27T12:11:03.437482Z"
+     "start_time": "2021-12-27T12:27:37.691Z"
     }
    },
    "outputs": [],
    "source": [
-    "clf = SIMTreeClassifier(max_depth=1, min_samples_leaf=50, knot_num=30,\n",
-    "                        n_split_grid=20, n_screen_grid=5, n_feature_search=10,\n",
-    "                        reg_lambda=[0],\n",
-    "                        reg_gamma=[1e-3, 1e-5, 1e-7])\n",
+    "clf = GLMTreeClassifier(max_depth=1, min_samples_leaf=50, reg_lambda=[1e4],\n",
+    "                        n_split_grid=20, n_screen_grid=5, n_feature_search=10)\n",
     "clf.fit(train_x, train_y)\n",
-    "clf.plot_tree()\n",
     "pred_train = clf.predict_proba(train_x)[:, 1]\n",
     "pred_test = clf.predict_proba(test_x)[:, 1]\n",
     "roc_auc_score(train_y, pred_train.ravel()), roc_auc_score(test_y, pred_test.ravel())"
diff --git a/simtree/glmtree.py b/simtree/glmtree.py
@@ -95,7 +95,7 @@ def build_leaf(self, sample_indice):
                 best_estimator = LogisticRegressionCV(Cs=self.reg_lambda, penalty="l1", solver="liblinear", scoring="roc_auc",
                                       cv=5, random_state=self.random_state)
             else:
-                best_estimator = LogisticRegression(C=self.reg_lambda[0], random_state=self.random_state)
+                best_estimator = LogisticRegression(C=self.reg_lambda[0], penalty="l1", solver="liblinear", random_state=self.random_state)
 
             mx = self.x[sample_indice].mean(0)
             sx = self.x[sample_indice].std(0) + self.EPSILON