wip: type hints for colpali

joein · joein · commit a77fba3d7310 · 2025-02-06T18:05:58.000+01:00
diff --git a/fastembed/image/onnx_image_model.py b/fastembed/image/onnx_image_model.py
@@ -2,7 +2,7 @@
 import os
 from multiprocessing import get_all_start_methods
 from pathlib import Path
-from typing import Any, Iterable, Optional, Sequence, Type, Union
+from typing import Any, Iterable, Optional, Sequence, Type, Union, get_args
 
 import numpy as np
 from PIL import Image
@@ -92,7 +92,7 @@ def _embed_images(
     ) -> Iterable[T]:
         is_small = False
 
-        if isinstance(images, (str, Path, Image.Image)):
+        if isinstance(images, get_args(ImageInput)):
             images = [images]
             is_small = True
 
diff --git a/fastembed/late_interaction_multimodal/colpali.py b/fastembed/late_interaction_multimodal/colpali.py
@@ -5,6 +5,7 @@
 
 from fastembed.common import OnnxProvider, ImageInput
 from fastembed.common.onnx_model import OnnxOutputContext
+from fastembed.common.types import NumpyArray
 from fastembed.common.utils import define_cache_dir
 from fastembed.late_interaction_multimodal.late_interaction_multimodal_embedding_base import (
     LateInteractionMultimodalEmbeddingBase,
@@ -96,7 +97,7 @@ def __init__(
             self.device_id = None
 
         self.model_description = self._get_model_description(model_name)
-        self.cache_dir = define_cache_dir(cache_dir)
+        self.cache_dir = str(define_cache_dir(cache_dir))
 
         self._model_dir = self.download_model(
             self.model_description,
@@ -132,15 +133,15 @@ def load_onnx_model(self) -> None:
     def _post_process_onnx_image_output(
         self,
         output: OnnxOutputContext,
-    ) -> Iterable[np.ndarray]:
+    ) -> Iterable[NumpyArray]:
         """
         Post-process the ONNX model output to convert it into a usable format.
 
         Args:
             output (OnnxOutputContext): The raw output from the ONNX model.
 
         Returns:
-            Iterable[np.ndarray]: Post-processed output as NumPy arrays.
+            Iterable[NumpyArray]: Post-processed output as NumPy arrays.
         """
         return output.model_output.reshape(
             output.model_output.shape[0], -1, self.model_description["dim"]
@@ -149,15 +150,15 @@ def _post_process_onnx_image_output(
     def _post_process_onnx_text_output(
         self,
         output: OnnxOutputContext,
-    ) -> Iterable[np.ndarray]:
+    ) -> Iterable[NumpyArray]:
         """
         Post-process the ONNX model output to convert it into a usable format.
 
         Args:
             output (OnnxOutputContext): The raw output from the ONNX model.
 
         Returns:
-            Iterable[np.ndarray]: Post-processed output as NumPy arrays.
+            Iterable[NumpyArray]: Post-processed output as NumPy arrays.
         """
         return output.model_output.astype(np.float32)
 
@@ -172,30 +173,32 @@ def tokenize(self, documents: list[str], **_) -> list[Encoding]:
         return encoded
 
     def _preprocess_onnx_text_input(
-        self, onnx_input: dict[str, np.ndarray], **kwargs
-    ) -> dict[str, np.ndarray]:
+        self, onnx_input: dict[str, NumpyArray], **kwargs
+    ) -> dict[str, NumpyArray]:
         onnx_input["input_ids"] = np.array(
             [
                 self.QUERY_MARKER_TOKEN_ID + input_ids[2:].tolist()
                 for input_ids in onnx_input["input_ids"]
             ]
         )
-        empty_image_placeholder = np.zeros(self.IMAGE_PLACEHOLDER_SIZE, dtype=np.float32)
+        empty_image_placeholder: NumpyArray = np.zeros(
+            self.IMAGE_PLACEHOLDER_SIZE, dtype=np.float32
+        )
         onnx_input["pixel_values"] = np.array(
-            [empty_image_placeholder for _ in onnx_input["input_ids"]]
+            [empty_image_placeholder for _ in onnx_input["input_ids"]],
         )
         return onnx_input
 
     def _preprocess_onnx_image_input(
         self, onnx_input: dict[str, np.ndarray], **kwargs
-    ) -> dict[str, np.ndarray]:
+    ) -> dict[str, NumpyArray]:
         """
         Add placeholders for text input when processing image data for ONNX.
         Args:
-            onnx_input (Dict[str, np.ndarray]): Preprocessed image inputs.
+            onnx_input (Dict[str, NumpyArray]): Preprocessed image inputs.
             **kwargs: Additional arguments.
         Returns:
-            Dict[str, np.ndarray]: ONNX input with text placeholders.
+            Dict[str, NumpyArray]: ONNX input with text placeholders.
         """
 
         onnx_input["input_ids"] = np.array(
@@ -212,7 +215,7 @@ def embed_text(
         batch_size: int = 256,
         parallel: Optional[int] = None,
         **kwargs,
-    ) -> Iterable[np.ndarray]:
+    ) -> Iterable[NumpyArray]:
         """
         Encode a list of documents into list of embeddings.
 
@@ -241,11 +244,11 @@ def embed_text(
 
     def embed_image(
         self,
-        images: ImageInput,
+        images: Union[ImageInput, Iterable[ImageInput]],
         batch_size: int = 16,
         parallel: Optional[int] = None,
         **kwargs,
-    ) -> Iterable[np.ndarray]:
+    ) -> Iterable[NumpyArray]:
         """
         Encode a list of images into list of embeddings.
 
diff --git a/fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding.py b/fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding.py
@@ -1,8 +1,7 @@
 from typing import Any, Iterable, Optional, Sequence, Type, Union
 
-import numpy as np
-
 from fastembed.common import OnnxProvider, ImageInput
+from fastembed.common.types import NumpyArray
 from fastembed.late_interaction_multimodal.colpali import ColPali
 
 from fastembed.late_interaction_multimodal.late_interaction_multimodal_embedding_base import (
@@ -55,7 +54,7 @@ def __init__(
         cuda: bool = False,
         device_ids: Optional[list[int]] = None,
         lazy_load: bool = False,
-        **kwargs,
+        **kwargs: Any,
     ):
         super().__init__(model_name, cache_dir, threads, **kwargs)
         for EMBEDDING_MODEL_TYPE in self.EMBEDDINGS_REGISTRY:
@@ -83,8 +82,8 @@ def embed_text(
         documents: Union[str, Iterable[str]],
         batch_size: int = 256,
         parallel: Optional[int] = None,
-        **kwargs,
-    ) -> Iterable[np.ndarray]:
+        **kwargs: Any,
+    ) -> Iterable[NumpyArray]:
         """
         Encode a list of documents into list of embeddings.
 
@@ -106,8 +105,8 @@ def embed_image(
         images: Union[ImageInput, Iterable[ImageInput]],
         batch_size: int = 16,
         parallel: Optional[int] = None,
-        **kwargs,
-    ) -> Iterable[np.ndarray]:
+        **kwargs: Any,
+    ) -> Iterable[NumpyArray]:
         """
         Encode a list of images into list of embeddings.
 
diff --git a/fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding_base.py b/fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding_base.py
@@ -1,9 +1,9 @@
 from typing import Iterable, Optional, Union
 
-import numpy as np
 
 from fastembed.common import ImageInput
 from fastembed.common.model_management import ModelManagement
+from fastembed.common.types import NumpyArray
 
 
 class LateInteractionMultimodalEmbeddingBase(ModelManagement):
@@ -25,7 +25,7 @@ def embed_text(
         batch_size: int = 256,
         parallel: Optional[int] = None,
         **kwargs,
-    ) -> Iterable[np.ndarray]:
+    ) -> Iterable[NumpyArray]:
         """
         Embeds a list of documents into a list of embeddings.
 
@@ -39,7 +39,7 @@ def embed_text(
             **kwargs: Additional keyword argument to pass to the embed method.
 
         Yields:
-            Iterable[np.ndarray]: The embeddings.
+            Iterable[NumpyArray]: The embeddings.
         """
         raise NotImplementedError()
 
@@ -49,7 +49,7 @@ def embed_image(
         batch_size: int = 16,
         parallel: Optional[int] = None,
         **kwargs,
-    ) -> Iterable[np.ndarray]:
+    ) -> Iterable[NumpyArray]:
         """
         Encode a list of images into list of embeddings.
         Args:
diff --git a/fastembed/late_interaction_multimodal/onnx_multimodal_model.py b/fastembed/late_interaction_multimodal/onnx_multimodal_model.py
@@ -11,6 +11,7 @@
 from fastembed.common import OnnxProvider, ImageInput
 from fastembed.common.onnx_model import EmbeddingWorker, OnnxModel, OnnxOutputContext, T
 from fastembed.common.preprocessor_utils import load_tokenizer, load_preprocessor
+from fastembed.common.types import NumpyArray
 from fastembed.common.utils import iter_batch
 from fastembed.parallel_processor import ParallelWorkerPool
 
@@ -25,16 +26,16 @@ def __init__(self) -> None:
         self.special_token_to_id = {}
 
     def _preprocess_onnx_text_input(
-        self, onnx_input: dict[str, np.ndarray], **kwargs
-    ) -> dict[str, np.ndarray]:
+        self, onnx_input: dict[str, NumpyArray], **kwargs: Any
+    ) -> dict[str, NumpyArray]:
         """
         Preprocess the onnx input.
         """
         return onnx_input
 
     def _preprocess_onnx_image_input(
-        self, onnx_input: dict[str, np.ndarray], **kwargs
-    ) -> dict[str, np.ndarray]:
+        self, onnx_input: dict[str, NumpyArray], **kwargs: Any
+    ) -> dict[str, NumpyArray]:
         """
         Preprocess the onnx input.
         """
@@ -71,19 +72,20 @@ def _load_onnx_model(
             cuda=cuda,
             device_id=device_id,
         )
+        assert self.tokenizer is not None
         self.tokenizer, self.special_token_to_id = load_tokenizer(model_dir=model_dir)
         self.processor = load_preprocessor(model_dir=model_dir)
 
     def load_onnx_model(self) -> None:
         raise NotImplementedError("Subclasses must implement this method")
 
-    def tokenize(self, documents: list[str], **kwargs) -> list[Encoding]:
+    def tokenize(self, documents: list[str], **kwargs: Any) -> list[Encoding]:
         return self.tokenizer.encode_batch(documents)
 
     def onnx_embed_text(
         self,
         documents: list[str],
-        **kwargs,
+        **kwargs: Any,
     ) -> OnnxOutputContext:
         encoded = self.tokenize(documents, **kwargs)
         input_ids = np.array([e.ids for e in encoded])
@@ -100,7 +102,7 @@ def onnx_embed_text(
             )
 
         onnx_input = self._preprocess_onnx_text_input(onnx_input, **kwargs)
-        model_output = self.model.run(self.ONNX_OUTPUT_NAMES, onnx_input)
+        model_output = self.model.run(self.ONNX_OUTPUT_NAMES, onnx_input)  # type: ignore
         return OnnxOutputContext(
             model_output=model_output[0],
             attention_mask=onnx_input.get("attention_mask", attention_mask),
@@ -117,7 +119,7 @@ def _embed_documents(
         providers: Optional[Sequence[OnnxProvider]] = None,
         cuda: bool = False,
         device_ids: Optional[list[int]] = None,
-        **kwargs,
+        **kwargs: Any,
     ) -> Iterable[T]:
         is_small = False
 
@@ -156,10 +158,11 @@ def _embed_documents(
             for batch in pool.ordered_map(iter_batch(documents, batch_size), **params):
                 yield from self._post_process_onnx_text_output(batch)
 
-    def _build_onnx_image_input(self, encoded: np.ndarray) -> dict[str, np.ndarray]:
-        return {node.name: encoded for node in self.model.get_inputs()}
+    def _build_onnx_image_input(self, encoded: NumpyArray) -> dict[str, NumpyArray]:
+        input_name = self.model.get_inputs()[0].name  # type: ignore
+        return {input_name: encoded}
 
-    def onnx_embed_image(self, images: list[ImageInput], **kwargs) -> OnnxOutputContext:
+    def onnx_embed_image(self, images: list[ImageInput], **kwargs: Any) -> OnnxOutputContext:
         with contextlib.ExitStack():
             image_files = [
                 Image.open(image) if not isinstance(image, Image.Image) else image
@@ -182,7 +185,7 @@ def _embed_images(
         providers: Optional[Sequence[OnnxProvider]] = None,
         cuda: bool = False,
         device_ids: Optional[list[int]] = None,
-        **kwargs,
+        **kwargs: Any,
     ) -> Iterable[T]:
         is_small = False
 
diff --git a/fastembed/sparse/sparse_embedding_base.py b/fastembed/sparse/sparse_embedding_base.py
@@ -20,7 +20,7 @@ def as_object(self) -> dict[str, NumpyArray]:
         }
 
     def as_dict(self) -> dict[int, float]:
-        return {int(i): float(v) for i, v in zip(self.indices, self.values)}  # type: ignore[arg-type]
+        return {int(i): float(v) for i, v in zip(self.indices, self.values)}  # type: ignore
 
     @classmethod
     def from_dict(cls, data: dict[int, float]) -> "SparseEmbedding":

Original file line number	Diff line number	Diff line change
`@@ -20,7 +20,7 @@ def as_object(self) -> dict[str, NumpyArray]:`
`20`	`20`	`}`
`21`	`21`
`22`	`22`	`def as_dict(self) -> dict[int, float]:`
`23`		`- return {int(i): float(v) for i, v in zip(self.indices, self.values)} # type: ignore[arg-type]`
	`23`	`+ return {int(i): float(v) for i, v in zip(self.indices, self.values)} # type: ignore`
`24`	`24`
`25`	`25`	`@classmethod`
`26`	`26`	`def from_dict(cls, data: dict[int, float]) -> "SparseEmbedding":`