cleanlab
diff --git a/‎src/experiments/OOD/0_Train_Models.ipynb
+4-81 b/‎src/experiments/OOD/0_Train_Models.ipynb
+4-81
diff --git a/‎src/experiments/OOD/1_Evaluate_All_OOD_Experiments.ipynb
-4 b/‎src/experiments/OOD/1_Evaluate_All_OOD_Experiments.ipynb
-4
diff --git a/‎src/experiments/adjusted-OOD-scores/0_Train_Models.ipynb
+243 b/‎src/experiments/adjusted-OOD-scores/0_Train_Models.ipynb
+243
@@ -13,17 +13,9 @@
     "import sys\n",
     "sys.path.insert(0, \"../\")\n",
     "\n",
-    "\n",
     "from autogluon.vision import ImagePredictor, ImageDataset\n",
     "import numpy as np\n",
     "import pandas as pd\n",
-    "import pickle\n",
-    "import datetime\n",
-    "from pathlib import Path\n",
-    "from sklearn.ensemble import IsolationForest\n",
-    "from sklearn.model_selection import StratifiedKFold\n",
-    "from sklearn.metrics import roc_auc_score\n",
-    "from sklearn.model_selection import train_test_split\n",
     "\n",
     "pd.set_option('display.max_rows', None)\n",
     "pd.set_option('display.max_columns', None)\n",
@@ -40,7 +32,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": null,
    "id": "5c9b59b4-c51c-4cdb-a958-46f227cdb5d8",
    "metadata": {},
    "outputs": [],
@@ -63,7 +55,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": null,
    "id": "cde63994-e833-4f87-93b6-e05b3c7ba479",
    "metadata": {},
    "outputs": [],
@@ -96,79 +88,10 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": null,
    "id": "1ae79a8d-bb68-46d5-b4b9-1f082da7d695",
    "metadata": {},
-   "outputs": [
-    {
-     "data": {
-      "text/html": [
-       "<div>\n",
-       "<style scoped>\n",
-       "    .dataframe tbody tr th:only-of-type {\n",
-       "        vertical-align: middle;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe tbody tr th {\n",
-       "        vertical-align: top;\n",
-       "    }\n",
-       "\n",
-       "    .dataframe thead th {\n",
-       "        text-align: right;\n",
-       "    }\n",
-       "</style>\n",
-       "<table border=\"1\" class=\"dataframe\">\n",
-       "  <thead>\n",
-       "    <tr style=\"text-align: right;\">\n",
-       "      <th></th>\n",
-       "      <th>image</th>\n",
-       "      <th>label</th>\n",
-       "    </tr>\n",
-       "  </thead>\n",
-       "  <tbody>\n",
-       "    <tr>\n",
-       "      <th>0</th>\n",
-       "      <td>/Data/cifar100_png/train/apple/0001.png</td>\n",
-       "      <td>0</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>1</th>\n",
-       "      <td>/Data/cifar100_png/train/apple/0002.png</td>\n",
-       "      <td>0</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>2</th>\n",
-       "      <td>/Data/cifar100_png/train/apple/0003.png</td>\n",
-       "      <td>0</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>3</th>\n",
-       "      <td>/Data/cifar100_png/train/apple/0004.png</td>\n",
-       "      <td>0</td>\n",
-       "    </tr>\n",
-       "    <tr>\n",
-       "      <th>4</th>\n",
-       "      <td>/Data/cifar100_png/train/apple/0005.png</td>\n",
-       "      <td>0</td>\n",
-       "    </tr>\n",
-       "  </tbody>\n",
-       "</table>\n",
-       "</div>"
-      ],
-      "text/plain": [
-       "                                     image  label\n",
-       "0  /Data/cifar100_png/train/apple/0001.png      0\n",
-       "1  /Data/cifar100_png/train/apple/0002.png      0\n",
-       "2  /Data/cifar100_png/train/apple/0003.png      0\n",
-       "3  /Data/cifar100_png/train/apple/0004.png      0\n",
-       "4  /Data/cifar100_png/train/apple/0005.png      0"
-      ]
-     },
-     "execution_count": 7,
-     "metadata": {},
-     "output_type": "execute_result"
-    }
-   ],
+   "outputs": [],
    "source": [
     "# Check out a dataset\n",
     "cifar_100_train_dataset.head()"
 
@@ -19,16 +19,12 @@
     "from autogluon.vision import ImagePredictor, ImageDataset\n",
     "import numpy as np\n",
     "import pandas as pd\n",
-    "import pickle\n",
-    "import datetime\n",
-    "from pathlib import Path\n",
     "import umap\n",
     "import seaborn as sns\n",
     "from sklearn.ensemble import IsolationForest\n",
     "from sklearn.model_selection import StratifiedKFold\n",
     "from sklearn.metrics import roc_auc_score\n",
     "from sklearn.model_selection import train_test_split\n",
-    "from IPython.display import HTML\n",
     "from matplotlib import pyplot as plt\n",
     "from cleanlab.internal.label_quality_utils import get_normalized_entropy\n",
     "\n",
 
@@ -0,0 +1,243 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "d61e5d70-45e1-4223-b569-7a4c9247876d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%load_ext autoreload\n",
+    "%autoreload 2\n",
+    "\n",
+    "import sys\n",
+    "sys.path.insert(0, \"../\")\n",
+    "\n",
+    "from autogluon.vision import ImagePredictor, ImageDataset\n",
+    "import numpy as np\n",
+    "import pandas as pd\n",
+    "\n",
+    "pd.set_option('display.max_rows', None)\n",
+    "pd.set_option('display.max_columns', None)\n",
+    "pd.set_option('display.max_colwidth', None)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "bc2ebf60-4338-45ce-b9ce-e0d2b5cc7f0d",
+   "metadata": {},
+   "source": [
+    "## Read data"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "5c9b59b4-c51c-4cdb-a958-46f227cdb5d8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# path to data\n",
+    "CIFAR_10_DATA_PATH = \"/datasets/uly/ood-data/cifar10_png/\"\n",
+    "CIFAR_100_DATA_PATH = \"/datasets/uly/ood-data/cifar100_png/\"\n",
+    "MNIST_DATA_PATH = \"/datasets/uly/ood-data/mnist_png/\"\n",
+    "FASHION_MNIST_DATA_PATH = \"/datasets/uly/ood-data/fashion_mnist_png/\"\n",
+    "\n",
+    "# read data from root folder\n",
+    "cifar_10_train_dataset, _, cifar_10_test_dataset = ImageDataset.from_folders(root=CIFAR_10_DATA_PATH)\n",
+    "cifar_100_train_dataset, _, cifar_100_test_dataset = ImageDataset.from_folders(root=CIFAR_100_DATA_PATH)\n",
+    "mnist_train_dataset, _, mnist_test_dataset = ImageDataset.from_folders(root=MNIST_DATA_PATH)\n",
+    "fashion_mnist_train_dataset, _, fashion_mnist_test_dataset = ImageDataset.from_folders(root=FASHION_MNIST_DATA_PATH)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cde63994-e833-4f87-93b6-e05b3c7ba479",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# dictionary to store data path and model\n",
+    "\n",
+    "data_model_dict = {\n",
+    "    \"cifar-10\": {\n",
+    "        \"train_data\": cifar_10_train_dataset,\n",
+    "        \"test_data\": cifar_10_test_dataset,\n",
+    "    },\n",
+    "    \"cifar-100\": {\n",
+    "        \"train_data\": cifar_100_train_dataset,\n",
+    "        \"test_data\": cifar_100_test_dataset,\n",
+    "    },\n",
+    "    \"mnist\": {\n",
+    "        \"train_data\": mnist_train_dataset,\n",
+    "        \"test_data\": mnist_test_dataset,\n",
+    "    },\n",
+    "    \"fashion-mnist\": {\n",
+    "        \"train_data\": fashion_mnist_train_dataset,\n",
+    "        \"test_data\": fashion_mnist_test_dataset,\n",
+    "    },\n",
+    "}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8606e688",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Create mini train dataset for testing\n",
+    "def get_imbalanced_dataset(dataset, fractions):\n",
+    "    assert len(fractions) == dataset['label'].nunique()\n",
+    "\n",
+    "    imbalanced_dataset = pd.DataFrame(columns=dataset.columns)\n",
+    "    print(imbalanced_dataset)\n",
+    "    for i in range(len(fractions)):\n",
+    "        idf = dataset[dataset['label'] == i].sample(frac=fractions[i])\n",
+    "        print(f'label {i} will have {idf.shape[0]} examples')\n",
+    "        imbalanced_dataset = pd.concat([imbalanced_dataset, idf], ignore_index=True)\n",
+    "    print(f'total imbalanced dataset length {imbalanced_dataset.shape[0]}')\n",
+    "    return imbalanced_dataset\n",
+    "\n",
+    "### Uncomment below to create imbalanced datasets\n",
+    "\n",
+    "# cifar_100_num_classes = len(cifar_100_train_dataset['label'].unique())\n",
+    "# cifar_100_distribution = [0.15] * int(cifar_100_num_classes * 0.9) + [1.] * int(cifar_100_num_classes * 0.1)\n",
+    "# cifar_100_train_dataset = get_imbalanced_dataset(cifar_100_train_dataset, cifar_100_distribution)\n",
+    "# cifar_10_train_dataset = get_imbalanced_dataset(cifar_10_train_dataset,[0.09,0.09,0.09,0.09,1.,1.,0.09,0.09,1.,1.])\n",
+    "# mnist_train_dataset = get_imbalanced_dataset(mnist_train_dataset,[0.09,0.09,0.09,0.09,1.,1.,0.09,0.09,1.,1.])\n",
+    "# fashion_mnist_train_dataset = get_imbalanced_dataset(fashion_mnist_train_dataset,[0.09,0.09,0.09,0.09,1.,1.,0.09,0.09,1.,1.])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "1ae79a8d-bb68-46d5-b4b9-1f082da7d695",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Check out a dataset\n",
+    "mnist_train_dataset.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "cc26ea6d-954c-4810-a561-50badcdd992d",
+   "metadata": {},
+   "source": [
+    "## Train model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "b854ab3a",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "!mkdir models # Create models folder to save model results into"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "abfa0bb0-aa32-47ac-a453-9ac5a2d91c96",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%time\n",
+    "\n",
+    "def train_ag_model(\n",
+    "    train_data,\n",
+    "    dataset_name,\n",
+    "    model_folder=\"./models/\",    \n",
+    "    epochs=100,\n",
+    "    model=\"swin_base_patch4_window7_224\",\n",
+    "    time_limit=10*3600\n",
+    "):\n",
+    "\n",
+    "    # init model\n",
+    "    predictor = ImagePredictor(verbosity=0)\n",
+    "\n",
+    "    MODEL_PARAMS = {\n",
+    "        \"model\": model,\n",
+    "        \"epochs\": epochs,\n",
+    "    }\n",
+    "\n",
+    "    # run training\n",
+    "    predictor.fit(\n",
+    "        train_data=train_data,\n",
+    "        # tuning_data=,\n",
+    "        ngpus_per_trial=1,\n",
+    "        hyperparameters=MODEL_PARAMS,\n",
+    "        time_limit=time_limit,\n",
+    "        random_state=123,\n",
+    "    )\n",
+    "\n",
+    "    # save model\n",
+    "    filename = f\"{model_folder}{model}_{dataset_name}.ag\"\n",
+    "    predictor.save(filename)    \n",
+    "    \n",
+    "    return predictor"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a2a4cfa4-f028-4236-a15d-e3d6e7df9f20",
+   "metadata": {},
+   "source": [
+    "## Train model for all datasets"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8bd6e11c-6856-4a4d-80b7-01b5635e5ffb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model = \"swin_base_patch4_window7_224\"\n",
+    "\n",
+    "for key, data in data_model_dict.items():\n",
+    "\n",
+    "    dataset = key\n",
+    "    train_dataset = data[\"train_data\"]\n",
+    "    \n",
+    "    print(f\"Dataset: {dataset}\")\n",
+    "    print(f\"  Records: {train_dataset.shape}\")\n",
+    "    print(f\"  Classes: {train_dataset.label.nunique()}\")    \n",
+    "    \n",
+    "    _ = train_ag_model(train_dataset, dataset_name=dataset, model=model, epochs=100)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "ec1ed3e1",
+   "metadata": {},
+   "outputs": [],
+   "source": []
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}