added week0_05

neychev · neychev · commit f19d6ee78163 · 2021-03-10T23:15:53.000+03:00
diff --git a/week0_05_Bias_Variance/README.md b/week0_05_Bias_Variance/README.md
@@ -0,0 +1,5 @@
+How to shoot yourself in your foot with preprocessing and cross-validation:
+[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/girafe-ai/ml-mipt/blob/basic_s21/week0_05_Bias_Variance/week0_05_Cross_validation_riddle.ipynb)
+
+Bias-variance decomposition visualization:
+[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/girafe-ai/ml-mipt/blob/basic_s21/week0_05_Bias_Variance/week0_05_BiasVariance.ipynb)
diff --git a/week0_05_Bias_Variance/week0_05_BiasVariance.ipynb b/week0_05_Bias_Variance/week0_05_BiasVariance.ipynb
diff --git a/week0_05_Bias_Variance/week0_05_Cross_validation_riddle.ipynb b/week0_05_Bias_Variance/week0_05_Cross_validation_riddle.ipynb
@@ -0,0 +1,261 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "*Credits: this notebook origin (shared under MIT license) belongs to [ML course at ICL](https://github.com/yandexdataschool/MLatImperial2020) held by Yandex School of Data Analysis. Special thanks to the course team for making it available online.*"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "colab_type": "text",
+    "id": "Ij_zY4soDF2Z"
+   },
+   "source": [
+    "## week0_05: Cross-validation riddle"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "colab_type": "text",
+    "id": "qUCsY5OlDJPl"
+   },
+   "source": [
+    "Here's a small example of cross-validation done wrongly. Can you spot the problem?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {
+    "colab": {},
+    "colab_type": "code",
+    "id": "mSUzkXsC-R4H"
+   },
+   "outputs": [],
+   "source": [
+    "# Some imports...\n",
+    "import numpy as np\n",
+    "import matplotlib.pyplot as plt\n",
+    "\n",
+    "from sklearn.svm import LinearSVC\n",
+    "from sklearn.model_selection import KFold, cross_val_score\n",
+    "from sklearn.metrics import accuracy_score"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "colab_type": "text",
+    "id": "ZyDp3Xc_DaDM"
+   },
+   "source": [
+    "**Plan:**\n",
+    "\n",
+    "- Let's create a binary classification dataset where targets are completely independent from the features\n",
+    "  - *(i.e. no model could ever predict them well)*\n",
+    "- We'll do some simple feature selection\n",
+    "- And cross-validate a model on this data\n",
+    "\n",
+    "**Q:** what accuracy do we expect (classes are even)?"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "colab_type": "text",
+    "id": "IHx51DKP8Rcf"
+   },
+   "source": [
+    "We'll start from writing a class to select the best features:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {
+    "colab": {},
+    "colab_type": "code",
+    "id": "rRNmKZJJ8W7x"
+   },
+   "outputs": [],
+   "source": [
+    "class FeatureSelector:\n",
+    "    def __init__(self, num_features):\n",
+    "        self.n = num_features # number of best features to select\n",
+    "\n",
+    "    def fit(self, X, y):\n",
+    "        # Select features that describe the targets best, i.e. have\n",
+    "        # highest correlation with them:\n",
+    "        covariance = ((X - X.mean(axis=0)) * (y[:,np.newaxis] - y.mean())).mean(axis=0)\n",
+    "        self.best_feature_ids = np.argsort(np.abs(covariance))[-self.n:]\n",
+    "\n",
+    "    def transform(self, X):\n",
+    "        return X[:,self.best_feature_ids]\n",
+    "\n",
+    "    def fit_transform(self, X, y):\n",
+    "        self.fit(X, y)\n",
+    "        return self.transform(X)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {
+    "colab": {
+     "base_uri": "https://localhost:8080/",
+     "height": 34
+    },
+    "colab_type": "code",
+    "id": "6mu9gHgNBk_V",
+    "outputId": "020bdc20-04e3-45c3-a3a7-a4c2cf9139e5"
+   },
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "CV score is 0.8741414141414141\n"
+     ]
+    }
+   ],
+   "source": [
+    "num_features_total = 1000\n",
+    "num_features_best = 100\n",
+    "\n",
+    "N = 100\n",
+    "\n",
+    "# Dataset generation\n",
+    "X = np.random.normal(size=(N, num_features_total))\n",
+    "y = np.random.randint(2, size=N)\n",
+    "\n",
+    "# Feature selection:\n",
+    "X_best = FeatureSelector(num_features_best).fit_transform(X, y)\n",
+    "\n",
+    "# Simple classification model\n",
+    "model = LinearSVC()\n",
+    "\n",
+    "# Estimatin accuracy using cross-validation:\n",
+    "cv_score = cross_val_score(model, X_best, y, scoring='accuracy', cv=10, n_jobs=-1).mean()\n",
+    "print(f\"CV score is {cv_score}\")"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "colab_type": "text",
+    "id": "afadN3ZVFKjF"
+   },
+   "source": [
+    "What's going on?! Why accuracy is so high?\n",
+    "\n",
+    "Maybe it just happened by chance? Let's repeat this experiment many times and histogram the results:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {
+    "colab": {
+     "base_uri": "https://localhost:8080/",
+     "height": 265
+    },
+    "colab_type": "code",
+    "id": "QDbOMXnuC6uw",
+    "outputId": "597d41e7-482b-4f6a-8565-316644c1b04e"
+   },
+   "outputs": [
+    {
+     "data": {
+      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAXoAAAD4CAYAAADiry33AAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4xLjMsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy+AADFEAAASiElEQVR4nO3df7DldX3f8edLEEwJBnBvCL8vpkgLWlZ7uyStGtCIsFpRw0Q2JmJCZ9Vqp07TadfSxoydzJDppOYHmTAbJaiNaJMUy8yCyvgjxgxE7+IiSxJkXTfjLtS9iqJGa7L67h/nu+nxcs7u3fM9e8/eT56PmTPn8/18P9/P982Xy+t+7/d7zpdUFZKkdj1p1gVIko4ug16SGmfQS1LjDHpJapxBL0mNO37WBYyybt26mp+fn3UZkrRmbN++/ctVNTdq3TEZ9PPz8ywuLs66DElaM5L81bh1XrqRpMYZ9JLUOINekhpn0EtS4wx6SWqcQS9JjTPoJalxBr0kNc6gl6TGHZPfjJWOVfNbts1kv3tufMlM9qs2eEYvSY077Bl9kluAlwL7q+qZXd/7gQu7IacAX6uq9SO23QN8A/gucKCqFqZUtyRphVZy6eZW4Cbg3Qc7qupVB9tJfg14/BDbX15VX560QElSP4cN+qr6RJL5UeuSBPhp4AXTLUuSNC19r9E/D/hSVT08Zn0BH06yPcnmQ02UZHOSxSSLS0tLPcuSJB3UN+g3AbcdYv1zq+o5wFXAG5M8f9zAqtpaVQtVtTA3N/LZ+ZKkCUwc9EmOB14JvH/cmKra173vB24HNky6P0nSZPqc0f8k8JdVtXfUyiQnJTn5YBu4AtjZY3+SpAkcNuiT3AbcA1yYZG+S67tV17Lssk2SM5Pc2S2eDnwyyf3Ap4BtVfXB6ZUuSVqJlXzqZtOY/teO6HsE2Ni1dwOX9KxPktST34yVpMYZ9JLUOINekhpn0EtS4wx6SWqcQS9JjTPoJalxBr0kNc6gl6TGGfSS1DiDXpIaZ9BLUuNW8v+MlTRj81u2zWzfe258ycz2renwjF6SGmfQS1LjDHpJapxBL0mNM+glqXEGvSQ1zqCXpMYdNuiT3JJkf5KdQ32/nGRfkh3da+OYba9M8lCSXUm2TLNwSdLKrOSM/lbgyhH9b6+q9d3rzuUrkxwH/DZwFXARsCnJRX2KlSQducMGfVV9Anhsgrk3ALuqandV/Q3wPuDqCeaRJPXQ5xEIb0ryGmAR+MWq+uqy9WcBXxxa3gtcOm6yJJuBzQDnnntuj7L098EsHwkgrTWT3oz9HeBHgfXAo8Cv9S2kqrZW1UJVLczNzfWdTpLUmSjoq+pLVfXdqvoe8LsMLtMstw84Z2j57K5PkrSKJgr6JGcMLb4C2Dli2KeBC5Kcn+QE4Frgjkn2J0ma3GGv0Se5DbgMWJdkL/BW4LIk64EC9gCv68aeCbyjqjZW1YEkbwI+BBwH3FJVDx6VfwpJ0liHDfqq2jSi+51jxj4CbBxavhN4wkcvJUmrx2/GSlLjDHpJapxBL0mNM+glqXEGvSQ1zqCXpMYZ9JLUOINekhpn0EtS4wx6SWqcQS9JjTPoJalxBr0kNc6gl6TGGfSS1DiDXpIaZ9BLUuMMeklqnEEvSY0z6CWpcYcN+iS3JNmfZOdQ339L8pdJPpvk9iSnjNl2T5IHkuxIsjjNwiVJK7OSM/pbgSuX9d0NPLOq/gnwOeAth9j+8qpaX1ULk5UoSerjsEFfVZ8AHlvW9+GqOtAt3gucfRRqkyRNwTSu0f8CcNeYdQV8OMn2JJsPNUmSzUkWkywuLS1NoSxJEvQM+iQ3AAeA3x8z5LlV9RzgKuCNSZ4/bq6q2lpVC1W1MDc316csSdKQiYM+yWuBlwKvrqoaNaaq9nXv+4HbgQ2T7k+SNJmJgj7JlcB/AF5WVd8aM+akJCcfbANXADtHjZUkHT0r+XjlbcA9wIVJ9ia5HrgJOBm4u/vo5M3d2DOT3NltejrwyST3A58CtlXVB4/KP4UkaazjDzegqjaN6H7nmLGPABu79m7gkl7VSZJ6O2zQS/r7bX7Ltpnsd8+NL5nJflvkIxAkqXEGvSQ1zqCXpMYZ9JLUOINekhpn0EtS4wx6SWqcQS9JjTPoJalxBr0kNc5HIGhis/pqvKQj4xm9JDXOoJekxhn0ktQ4g16SGmfQS1LjDHpJapxBL0mNM+glqXErCvoktyTZn2TnUN9pSe5O8nD3fuqYba/rxjyc5LppFS5JWpmVntHfCly5rG8L8JGqugD4SLf8fZKcBrwVuBTYALx13C8ESdLRsaKgr6pPAI8t674aeFfXfhfw8hGbvhi4u6oeq6qvAnfzxF8YkqSjqM81+tOr6tGu/X+A00eMOQv44tDy3q7vCZJsTrKYZHFpaalHWZKkYVO5GVtVBVTPObZW1UJVLczNzU2jLEkS/YL+S0nOAOje948Ysw84Z2j57K5PkrRK+gT9HcDBT9FcB/zvEWM+BFyR5NTuJuwVXZ8kaZWs9OOVtwH3ABcm2ZvkeuBG4EVJHgZ+slsmyUKSdwBU1WPAfwU+3b3e1vVJklbJiv7HI1W1acyqF44Yuwj8q6HlW4BbJqpOktSb34yVpMYZ9JLUOINekhpn0EtS4wx6SWrcij51o2Pb/JZtsy5B0jHMM3pJapxBL0mNM+glqXEGvSQ1zqCXpMYZ9JLUOINekhpn0EtS4wx6SWqcQS9JjTPoJalxBr0kNc6gl6TGTRz0SS5MsmPo9fUkb1425rIkjw+N+aX+JUuSjsTEjymuqoeA9QBJjgP2AbePGPonVfXSSfcjSepnWpduXgh8vqr+akrzSZKmZFpBfy1w25h1P57k/iR3Jbl4SvuTJK1Q76BPcgLwMuAPRqy+Dzivqi4Bfgv4wCHm2ZxkMcni0tJS37IkSZ1pnNFfBdxXVV9avqKqvl5V3+zadwJPTrJu1CRVtbWqFqpqYW5ubgplSZJgOkG/iTGXbZL8SJJ07Q3d/r4yhX1Kklao1/8cPMlJwIuA1w31vR6gqm4GrgHekOQA8G3g2qqqPvuUJB2ZXkFfVX8NPG1Z381D7ZuAm/rsQ5LUj9+MlaTGGfSS1DiDXpIaZ9BLUuMMeklqnEEvSY0z6CWpcQa9JDXOoJekxhn0ktQ4g16SGmfQS1Ljej3UTP/f/JZtsy5B0pTM6r/nPTe+5KjM6xm9JDXOoJekxhn0ktQ4g16SGmfQS1LjDHpJapxBL0mN6x30SfYkeSDJjiSLI9YnyW8m2ZXks0me03efkqSVm9YXpi6vqi+PWXcVcEH3uhT4ne5dkrQKVuPSzdXAu2vgXuCUJGeswn4lSUwn6Av4cJLtSTaPWH8W8MWh5b1d3/dJsjnJYpLFpaWlKZQlSYLpBP1zq+o5DC7RvDHJ8yeZpKq2VtVCVS3Mzc1NoSxJEkwh6KtqX/e+H7gd2LBsyD7gnKHls7s+SdIq6BX0SU5KcvLBNnAFsHPZsDuA13Sfvvkx4PGqerTPfiVJK9f3UzenA7cnOTjXe6vqg0leD1BVNwN3AhuBXcC3gJ/vuU9J0hHoFfRVtRu4ZET/zUPtAt7YZz+SpMn5zVhJapxBL0mNM+glqXEGvSQ1zqCXpMYZ9JLUuGk9vfKYMb9l26xLkKRjimf0ktQ4g16SGmfQS1LjDHpJapxBL0mNM+glqXEGvSQ1zqCXpMYZ9JLUOINekhrX3CMQJLXBx5lMj2f0ktQ4g16SGjdx0Cc5J8nHkvx5kgeT/NsRYy5L8niSHd3rl/qVK0k6Un2u0R8AfrGq7ktyMrA9yd1V9efLxv1JVb20x34kST1MfEZfVY9W1X1d+xvAXwBnTaswSdJ0TOUafZJ54NnAn41Y/eNJ7k9yV5KLDzHH5iSLSRaXlpamUZYkiSkEfZIfBP4IeHNVfX3Z6vuA86rqEuC3gA+Mm6eqtlbVQlUtzM3N9S1LktTpFfRJnswg5H+/qv7X8vVV9fWq+mbXvhN4cpJ1ffYpSToyfT51E+CdwF9U1X8fM+ZHunEk2dDt7yuT7lOSdOT6fOrmXwA/BzyQZEfX95+AcwGq6mbgGuANSQ4A3waurarqsU9J0hGaOOir6pNADjPmJuCmSfchSerPb8ZKUuMMeklqnEEvSY0z6CWpcQa9JDXOoJekxhn0ktQ4g16SGmfQS1LjDHpJapxBL0mNM+glqXEGvSQ1zqCXpMYZ9JLUOINekhpn0EtS4wx6SWqcQS9JjTPoJalxvYI+yZVJHkqyK8mWEetPTPL+bv2fJZnvsz9J0pGbOOiTHAf8NnAVcBGwKclFy4ZdD3y1qv4h8HbgVyfdnyRpMn3O6DcAu6pqd1X9DfA+4OplY64G3tW1/xB4YZL02Kck6Qgd32Pbs4AvDi3vBS4dN6aqDiR5HHga8OXlkyXZDGzuFr+Z5KGuvW7U+GPQWqhzLdQIa6POtVAjWOc0HfUa0++ax3njVvQJ+qmqqq3A1uX9SRaramEGJR2RtVDnWqgR1kada6FGsM5pWgs1jtPn0s0+4Jyh5bO7vpFjkhwP/BDwlR77lCQdoT5B/2nggiTnJzkBuBa4Y9mYO4DruvY1wEerqnrsU5J0hCa+dNNdc38T8CHgOOCWqnowyduAxaq6A3gn8J4ku4DHGPwyOFJPuJxzjFoLda6FGmFt1LkWagTrnKa1UONI8QRbktrmN2MlqXEGvSQ1btWDfgWPTTg3yceSfCbJZ5NsHFr3lm67h5K8eKVzrlaNSV6UZHuSB7r3Fwxt8/Fuzh3d64dnWOd8km8P1XLz0Db/tKt/V5Lf7PsFtx41vnqovh1JvpdkfbduFsfyvCQf6Wr8eJKzh9Zdl+Th7nXdUP9qH8uRNSZZn+SeJA926141tM2tSb4wdCzX96mxT53duu8O1XLHUP/5GTxGZVcGj1U5YVZ1Jrl82c/m/03y8m7d1I/nVFTVqr0Y3LT9PPB04ATgfuCiZWO2Am/o2hcBe4ba9wMnAud38xy3kjlXscZnA2d27WcC+4a2+TiwcIwcy3lg55h5PwX8GBDgLuCqWdS4bMyzgM/P+Fj+AXBd134B8J6ufRqwu3s/tWufOqNjOa7GZwAXdO0zgUeBU7rlW4FrjoVj2S1/c8y8/xO4tmvffPBnZlZ1Do05jcEHTf7B0Tie03qt9hn9Sh6bUMBTu/YPAY907auB91XVd6rqC8Cubr6VzLkqNVbVZ6rqYL0PAj+Q5MQetRyVOsdJcgbw1Kq6twY/te8GXn4M1Lip2/ZoWUmdFwEf7dofG1r/YuDuqnqsqr4K3A1cOaNjObLGqvpcVT3ctR8B9gNzPWo5KnWO0/0l9AIGj1GBwWNV+hzLadZ5DXBXVX2rZz1H1WoH/ajHJpy1bMwvAz+bZC9wJ/BvDrPtSuZcrRqH/RRwX1V9Z6jv97o/5/5L3z/jp1Dn+d3lkj9O8ryhOfceZs7VrPGgVwG3Letb7WN5P/DKrv0K4OQkTzvEtrM4luNq/DtJNjA4g/38UPevdJcn3j6FE5O+dT4lyWKSew9eDmHw2JSvVdWBQ8y52nUedC1P/Nmc5vGcimPxZuwm4NaqOhvYyOBz+MdanYesMcnFDJ7U+bqhbV5dVc8Cnte9fm6GdT4KnFtVzwb+HfDeJE89xDyzqBGAJJcC36qqnUPbzOJY/nvgJ5J8BvgJBt/6/u4q7PdIHLLG7q+M9wA/X1Xf67rfAvwj4J8xuAzxH2dc53k1eMzAzwC/nuRHV6GecVZyPJ/F4LtEB83ieB7WagfoSh6bcD2D63FU1T3AUxg8TGjctiuZc7VqpLthczvwmqr6u7OmqtrXvX8DeC+DPx37mLjO7vLXV7r+7QzO7p7RbX/20PYzPZadJ5wxzeJYVtUjVfXK7pfjDV3f1w6x7aofy0PUSPeLfBtwQ1XdO7TNozXwHeD3mO2xHP53u5vBvZhnM3hsyikZPEZl5JyrXWfnp4Hbq+pvh7aZ9vGcjtW8IcDgm7i7GdxMPXgD5OJlY+4CXtu1/zGDa7YBLub7b8buZnBD5bBzrmKNp3TjXzliznVd+8kMrjW+fobHcg44rut/OoMf8NO65eU3EDfOosZu+UldbU8/Bo7lOuBJXftXgLd17dOALzC4EXtq157VsRxX4wnAR4A3j5j3jO49wK8DN87wWJ4KnDg05mG6G6QMbowO34z917Oqc2j9vcDlR/N4Tuu1+jsc/Hn+OQZnkTd0fW8DXta1LwL+tDvwO4Arhra9odvuIYY+wTBqzlnUCPxn4K+7voOvHwZOArYDn2Vwk/Y36IJ2RnX+VFfHDuA+4F8OzbkA7OzmvIkudGf07/sy4N5l883qWF7DIHg+B7yDLpC6db/A4MMBuxhcFpnVsRxZI/CzwN8u+7lc3637KPBAV+f/AH5wVscS+OddLfd379cPzfl0Br84dzEI/RNnVWe3bp7BSciTls059eM5jZePQJCkxh1rNzklSVNm0EtS4wx6SWqcQS9JjTPoJalxBr0kNc6gl6TG/T9OYFHhwh6p/AAAAABJRU5ErkJggg==\n",
+      "text/plain": [
+       "<Figure size 432x288 with 1 Axes>"
+      ]
+     },
+     "metadata": {},
+     "output_type": "display_data"
+    }
+   ],
+   "source": [
+    "num_features_total = 1000\n",
+    "num_features_best = 100\n",
+    "\n",
+    "N = 100\n",
+    "def experiment():\n",
+    "    # Dataset generation\n",
+    "    X = np.random.normal(size=(N, num_features_total))\n",
+    "    y = np.random.randint(2, size=N)\n",
+    "\n",
+    "    # Feature selection:\n",
+    "    X_best = FeatureSelector(num_features_best).fit_transform(X, y)\n",
+    "\n",
+    "    # Simple classification model\n",
+    "    model = LinearSVC()\n",
+    "\n",
+    "  # Estimatin accuracy using cross-validation:\n",
+    "  return cross_val_score(model, X_best, y, scoring='accuracy', cv=10, n_jobs=-1).mean()\n",
+    "\n",
+    "results = [experiment() for _ in range(100)]\n",
+    "plt.hist(results, bins=10);"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "colab_type": "text",
+    "id": "8bLaEypoF5pb"
+   },
+   "source": [
+    "Can you explain and fix this?"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# It's dangerous to go alone. Take this!\n",
+    "from sklearn.pipeline import Pipeline"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# YOUR BEAUTIFUL FIX HERE"
+   ]
+  }
+ ],
+ "metadata": {
+  "colab": {
+   "include_colab_link": true,
+   "name": "Cross-validation riddle.ipynb",
+   "provenance": []
+  },
+  "kernelspec": {
+   "display_name": "Py3 research env",
+   "language": "python",
+   "name": "py3_research"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.6.7"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 1
+}