cleanlab
diff --git a/‎src/experiments/OOD-adj-scores/0_Train_Models.ipynb
Lines changed: 233 additions & 0 deletions b/‎src/experiments/OOD-adj-scores/0_Train_Models.ipynb
Lines changed: 233 additions & 0 deletions
@@ -0,0 +1,233 @@
+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "d61e5d70-45e1-4223-b569-7a4c9247876d",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%load_ext autoreload\n",
+    "%autoreload 2\n",
+    "\n",
+    "import sys\n",
+    "sys.path.insert(0, \"../\")\n",
+    "\n",
+    "\n",
+    "from autogluon.vision import ImagePredictor, ImageDataset\n",
+    "import numpy as np\n",
+    "import pandas as pd\n",
+    "import pickle\n",
+    "import datetime\n",
+    "from pathlib import Path\n",
+    "from sklearn.ensemble import IsolationForest\n",
+    "from sklearn.model_selection import StratifiedKFold\n",
+    "from sklearn.metrics import roc_auc_score\n",
+    "from sklearn.model_selection import train_test_split\n",
+    "\n",
+    "pd.set_option('display.max_rows', None)\n",
+    "pd.set_option('display.max_columns', None)\n",
+    "pd.set_option('display.max_colwidth', None)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "bc2ebf60-4338-45ce-b9ce-e0d2b5cc7f0d",
+   "metadata": {},
+   "source": [
+    "## Read data"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "5c9b59b4-c51c-4cdb-a958-46f227cdb5d8",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# path to data\n",
+    "CIFAR_10_DATA_PATH = \"/datasets/uly/ood-data/cifar10_png/\"\n",
+    "CIFAR_100_DATA_PATH = \"/datasets/uly/ood-data/cifar100_png/\"\n",
+    "MNIST_DATA_PATH = \"/datasets/uly/ood-data/mnist_png/\"\n",
+    "FASHION_MNIST_DATA_PATH = \"/datasets/uly/ood-data/fashion_mnist_png/\"\n",
+    "\n",
+    "# read data from root folder\n",
+    "cifar_10_train_dataset, _, cifar_10_test_dataset = ImageDataset.from_folders(root=CIFAR_10_DATA_PATH)\n",
+    "cifar_100_train_dataset, _, cifar_100_test_dataset = ImageDataset.from_folders(root=CIFAR_100_DATA_PATH)\n",
+    "mnist_train_dataset, _, mnist_test_dataset = ImageDataset.from_folders(root=MNIST_DATA_PATH)\n",
+    "fashion_mnist_train_dataset, _, fashion_mnist_test_dataset = ImageDataset.from_folders(root=FASHION_MNIST_DATA_PATH)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "cde63994-e833-4f87-93b6-e05b3c7ba479",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# dictionary to store data path and model\n",
+    "\n",
+    "data_model_dict = {\n",
+    "    \"cifar-10\": {\n",
+    "        \"train_data\": cifar_10_train_dataset,\n",
+    "        \"test_data\": cifar_10_test_dataset,\n",
+    "    },\n",
+    "    \"cifar-100\": {\n",
+    "        \"train_data\": cifar_100_train_dataset,\n",
+    "        \"test_data\": cifar_100_test_dataset,\n",
+    "    },\n",
+    "    \"mnist\": {\n",
+    "        \"train_data\": mnist_train_dataset,\n",
+    "        \"test_data\": mnist_test_dataset,\n",
+    "    },\n",
+    "    \"fashion-mnist\": {\n",
+    "        \"train_data\": fashion_mnist_train_dataset,\n",
+    "        \"test_data\": fashion_mnist_test_dataset,\n",
+    "    },\n",
+    "}"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8606e688",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Create mini train dataset for testing\n",
+    "def get_imbalanced_dataset(dataset, fractions):\n",
+    "    assert len(fractions) == dataset['label'].nunique()\n",
+    "\n",
+    "    imbalanced_dataset = pd.DataFrame(columns=dataset.columns)\n",
+    "    print(imbalanced_dataset)\n",
+    "    for i in range(len(fractions)):\n",
+    "        idf = dataset[dataset['label'] == i].sample(frac=fractions[i])\n",
+    "        print(f'label {i} will have {idf.shape[0]} examples')\n",
+    "        imbalanced_dataset = pd.concat([imbalanced_dataset, idf], ignore_index=True)\n",
+    "    print(f'total imbalanced dataset length {imbalanced_dataset.shape[0]}')\n",
+    "    return imbalanced_dataset\n",
+    "\n",
+    "### Uncomment below to create imbalanced datasets\n",
+    "\n",
+    "# cifar_100_num_classes = len(cifar_100_train_dataset['label'].unique())\n",
+    "# cifar_100_distribution = [0.15] * int(cifar_100_num_classes * 0.9) + [1.] * int(cifar_100_num_classes * 0.1)\n",
+    "# cifar_100_train_dataset = get_imbalanced_dataset(cifar_100_train_dataset, cifar_100_distribution)\n",
+    "# cifar_10_train_dataset = get_imbalanced_dataset(cifar_10_train_dataset,[0.09,0.09,0.09,0.09,1.,1.,0.09,0.09,1.,1.])\n",
+    "# mnist_train_dataset = get_imbalanced_dataset(mnist_train_dataset,[0.09,0.09,0.09,0.09,1.,1.,0.09,0.09,1.,1.])\n",
+    "# fashion_mnist_train_dataset = get_imbalanced_dataset(fashion_mnist_train_dataset,[0.09,0.09,0.09,0.09,1.,1.,0.09,0.09,1.,1.])"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "1ae79a8d-bb68-46d5-b4b9-1f082da7d695",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Check out a dataset\n",
+    "mnist_train_dataset.head()"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "cc26ea6d-954c-4810-a561-50badcdd992d",
+   "metadata": {},
+   "source": [
+    "## Train model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "abfa0bb0-aa32-47ac-a453-9ac5a2d91c96",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%time\n",
+    "\n",
+    "def train_ag_model(\n",
+    "    train_data,\n",
+    "    dataset_name,\n",
+    "    model_folder=\"./models/\",    \n",
+    "    epochs=100,\n",
+    "    model=\"swin_base_patch4_window7_224\",\n",
+    "    time_limit=10*3600\n",
+    "):\n",
+    "\n",
+    "    # init model\n",
+    "    predictor = ImagePredictor(verbosity=0)\n",
+    "\n",
+    "    MODEL_PARAMS = {\n",
+    "        \"model\": model,\n",
+    "        \"epochs\": epochs,\n",
+    "    }\n",
+    "\n",
+    "    # run training\n",
+    "    predictor.fit(\n",
+    "        train_data=train_data,\n",
+    "        # tuning_data=,\n",
+    "        ngpus_per_trial=1,\n",
+    "        hyperparameters=MODEL_PARAMS,\n",
+    "        time_limit=time_limit,\n",
+    "        random_state=123,\n",
+    "    )\n",
+    "\n",
+    "    # save model\n",
+    "    filename = f\"{model_folder}{model}_{dataset_name}.ag\"\n",
+    "    predictor.save(filename)    \n",
+    "    \n",
+    "    return predictor"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "id": "a2a4cfa4-f028-4236-a15d-e3d6e7df9f20",
+   "metadata": {},
+   "source": [
+    "## Train model for all datasets"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "8bd6e11c-6856-4a4d-80b7-01b5635e5ffb",
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "model = \"swin_base_patch4_window7_224\"\n",
+    "\n",
+    "for key, data in data_model_dict.items():\n",
+    "\n",
+    "    dataset = key\n",
+    "    train_dataset = data[\"train_data\"]\n",
+    "    \n",
+    "    print(f\"Dataset: {dataset}\")\n",
+    "    print(f\"  Records: {train_dataset.shape}\")\n",
+    "    print(f\"  Classes: {train_dataset.label.nunique()}\")    \n",
+    "    \n",
+    "    _ = train_ag_model(train_dataset, dataset_name=dataset, model=model, epochs=100)"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3 (ipykernel)",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.8.10"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}