Update with ignored scope

nikita-malininn · nikita-malininn · commit 39e8e2281673 · 2025-01-30T14:14:47.000+01:00
diff --git a/notebooks/outetts-text-to-speech/outetts-text-to-speech.ipynb b/notebooks/outetts-text-to-speech/outetts-text-to-speech.ipynb
@@ -243,7 +243,12 @@
    "source": [
     "import IPython.display as ipd\n",
     "\n",
-    "ipd.Audio(tts_output.audio[0].numpy(), rate=tts_output.sr)"
+    "\n",
+    "def play(data, rate=None):\n",
+    "    ipd.display(ipd.Audio(data, rate=rate))\n",
+    "\n",
+    "\n",
+    "play(tts_output.audio[0].numpy(), rate=tts_output.sr)"
    ]
   },
   {
@@ -277,7 +282,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "ipd.Audio(file_path)"
+    "play(file_path)"
    ]
   },
   {
@@ -310,7 +315,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "ipd.Audio(cloned_output.audio[0].numpy(), rate=cloned_output.sr)"
+    "play(cloned_output.audio[0].numpy(), rate=cloned_output.sr)"
    ]
   },
   {
@@ -338,6 +343,41 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "from notebook_utils import quantization_widget\n",
+    "\n",
+    "to_quantize = quantization_widget()\n",
+    "\n",
+    "to_quantize"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# Fetch `skip_kernel_extension` module\n",
+    "import requests\n",
+    "\n",
+    "r = requests.get(\n",
+    "    url=\"https://raw.githubusercontent.com/openvinotoolkit/openvino_notebooks/latest/utils/skip_kernel_extension.py\",\n",
+    ")\n",
+    "open(\"skip_kernel_extension.py\", \"w\").write(r.text)\n",
+    "\n",
+    "ov_quantized_model = None\n",
+    "quantized_ov_pipe = None\n",
+    "\n",
+    "%load_ext skip_kernel_extension"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%%skip not $to_quantize.value\n",
+    "\n",
     "hf_model = OVHFModel(model_dir, device.value).model"
    ]
   },
@@ -357,6 +397,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "%%skip not $to_quantize.value\n",
+    "\n",
     "from datasets import load_dataset\n",
     "\n",
     "libritts = load_dataset(\"parler-tts/libritts_r_filtered\", \"clean\", split=\"test.clean\")"
@@ -378,6 +420,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "%%skip not $to_quantize.value\n",
+    "\n",
     "import nncf\n",
     "from functools import partial\n",
     "import numpy as np\n",
@@ -403,8 +447,7 @@
     "\n",
     "\n",
     "dataset = nncf.Dataset(libritts, partial(transform_fn, interface=interface))\n",
-    "\n",
-    "quantized_model = nncf.quantize(hf_model.model, dataset, preset=nncf.QuantizationPreset.MIXED, model_type=nncf.ModelType.TRANSFORMER)"
+    "quantized_model = nncf.quantize(hf_model.model, dataset, preset=nncf.QuantizationPreset.MIXED, model_type=nncf.ModelType.TRANSFORMER, ignored_scope=nncf.IgnoredScope(patterns=[\"__module.model.layers.*.self_attn/aten::scaled_dot_product_attention/ScaledDotProductAttention\"]))"
    ]
   },
   {
@@ -425,7 +468,10 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "%%skip not $to_quantize.value\n",
+    "\n",
     "hf_model.model = quantized_model\n",
+    "# int8_path = Path(f\"{model_dir}_compressed\")\n",
     "int8_path = Path(f\"{model_dir}_int8\")\n",
     "hf_model.save_pretrained(int8_path)\n",
     "interface.prompt_processor.tokenizer.save_pretrained(int8_path)\n",
@@ -439,6 +485,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "%%skip not $to_quantize.value\n",
+    "\n",
     "tts_output_int8 = interface_int8.generate(text=\"Hello, I'm working!\", temperature=0.1, repetition_penalty=1.1, max_length=4096)"
    ]
   },
@@ -448,8 +496,9 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "%%skip not $to_quantize.value\n",
     "# Non-quantized model output:\n",
-    "ipd.Audio(tts_output.audio[0].numpy(), rate=tts_output.sr)"
+    "play(tts_output.audio[0].numpy(), rate=tts_output.sr)"
    ]
   },
   {
@@ -459,7 +508,7 @@
    "outputs": [],
    "source": [
     "# Quantized model output:\n",
-    "ipd.Audio(tts_output_int8.audio[0].numpy(), rate=tts_output_int8.sr)"
+    "play(tts_output_int8.audio[0].numpy(), rate=tts_output_int8.sr)"
    ]
   },
   {
@@ -468,6 +517,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "%%skip not $to_quantize.value\n",
+    "\n",
     "speaker = interface_int8.load_speaker(\"speaker.pkl\")\n",
     "cloned_output_int8 = interface_int8.generate(\n",
     "    text=\"This is a cloned voice speaking\",\n",
@@ -484,8 +535,9 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "%%skip not $to_quantize.value\n",
     "# Non-quantized model output:\n",
-    "ipd.Audio(cloned_output.audio[0].numpy(), rate=cloned_output.sr)"
+    "play(cloned_output.audio[0].numpy(), rate=cloned_output.sr)"
    ]
   },
   {
@@ -494,8 +546,9 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "%%skip not $to_quantize.value\n",
     "# Quantized model output:\n",
-    "ipd.Audio(cloned_output_int8.audio[0].numpy(), rate=cloned_output_int8.sr)"
+    "play(cloned_output_int8.audio[0].numpy(), rate=cloned_output_int8.sr)"
    ]
   },
   {
@@ -512,6 +565,8 @@
    "metadata": {},
    "outputs": [],
    "source": [
+    "%%skip not $to_quantize.value\n",
+    "\n",
     "import time\n",
     "import tqdm\n",
     "\n",
@@ -521,21 +576,21 @@
     "    for text in tqdm.tqdm(dataset[\"text_normalized\"]):\n",
     "        additional_gen_config = {\"pad_token_id\": interface.prompt_processor.tokenizer.eos_token_id}\n",
     "        start = time.perf_counter()\n",
-    "        _ = interface.generate(text=text, additional_gen_config=additional_gen_config)\n",
+    "        _ = interface.generate(text=text, max_length=256, additional_gen_config=additional_gen_config)\n",
     "        end = time.perf_counter()\n",
     "        delta = end - start\n",
     "        inference_time.append(delta)\n",
     "    return np.median(inference_time)\n",
     "\n",
     "\n",
-    "subset_size = 25\n",
     "interface = InterfaceOV(model_dir, device.value)\n",
+    "dataset_size = 25\n",
     "\n",
-    "fp_inference_time = calculate_inference_time(interface, libritts[:subset_size])\n",
+    "fp_inference_time = calculate_inference_time(interface, libritts[:dataset_size])\n",
     "print(f\"FP model generate time: {fp_inference_time}\")\n",
     "\n",
     "interface_int8 = InterfaceOV(int8_path, device.value)\n",
-    "int_inference_time = calculate_inference_time(interface_int8, libritts[:subset_size])\n",
+    "int_inference_time = calculate_inference_time(interface_int8, libritts[:dataset_size])\n",
     "print(f\"INT model generate time: {int_inference_time}\")"
    ]
   },