new: replace union with | in token count

joein · joein · commit 5632fe193f65 · 2025-12-10T18:52:45.000+07:00
diff --git a/fastembed/late_interaction/colbert.py b/fastembed/late_interaction/colbert.py
@@ -98,7 +98,7 @@ def _tokenize_documents(self, documents: list[str]) -> list[Encoding]:
 
     def token_count(
         self,
-        texts: Union[str, Iterable[str]],
+        texts: str | Iterable[str],
         batch_size: int = 1024,
         is_doc: bool = True,
         include_extension: bool = False,
diff --git a/fastembed/late_interaction/late_interaction_embedding_base.py b/fastembed/late_interaction/late_interaction_embedding_base.py
@@ -72,7 +72,7 @@ def embedding_size(self) -> int:
 
     def token_count(
         self,
-        texts: Union[str, Iterable[str]],
+        texts: str | Iterable[str],
         batch_size: int = 1024,
         **kwargs: Any,
     ) -> int:
diff --git a/fastembed/late_interaction/late_interaction_text_embedding.py b/fastembed/late_interaction/late_interaction_text_embedding.py
@@ -154,7 +154,7 @@ def query_embed(self, query: str | Iterable[str], **kwargs: Any) -> Iterable[Num
 
     def token_count(
         self,
-        texts: Union[str, Iterable[str]],
+        texts: str | Iterable[str],
         batch_size: int = 1024,
         is_doc: bool = True,
         include_extension: bool = False,
diff --git a/fastembed/late_interaction_multimodal/colpali.py b/fastembed/late_interaction_multimodal/colpali.py
@@ -174,7 +174,7 @@ def tokenize(self, documents: list[str], **kwargs: Any) -> list[Encoding]:
 
     def token_count(
         self,
-        texts: Union[str, Iterable[str]],
+        texts: str | Iterable[str],
         batch_size: int = 1024,
         include_extension: bool = False,
         **kwargs: Any,
diff --git a/fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding.py b/fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding.py
@@ -165,7 +165,7 @@ def embed_image(
 
     def token_count(
         self,
-        texts: Union[str, Iterable[str]],
+        texts: str | Iterable[str],
         batch_size: int = 1024,
         include_extension: bool = False,
         **kwargs: Any,
diff --git a/fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding_base.py b/fastembed/late_interaction_multimodal/late_interaction_multimodal_embedding_base.py
@@ -79,7 +79,7 @@ def embedding_size(self) -> int:
 
     def token_count(
         self,
-        texts: Union[str, Iterable[str]],
+        texts: str | Iterable[str],
         **kwargs: Any,
     ) -> int:
         """Returns the number of tokens in the texts."""
diff --git a/fastembed/sparse/bm25.py b/fastembed/sparse/bm25.py
@@ -268,7 +268,7 @@ def raw_embed(
             embeddings.append(SparseEmbedding.from_dict(token_id2value))
         return embeddings
 
-    def token_count(self, texts: Union[str, Iterable[str]], **kwargs: Any) -> int:
+    def token_count(self, texts: str | Iterable[str], **kwargs: Any) -> int:
         token_num = 0
         texts = [texts] if isinstance(texts, str) else texts
         for text in texts:
diff --git a/fastembed/sparse/bm42.py b/fastembed/sparse/bm42.py
@@ -351,7 +351,7 @@ def _get_worker_class(cls) -> Type[TextEmbeddingWorker[SparseEmbedding]]:
         return Bm42TextEmbeddingWorker
 
     def token_count(
-        self, texts: Union[str, Iterable[str]], batch_size: int = 1024, **kwargs: Any
+        self, texts: str | Iterable[str], batch_size: int = 1024, **kwargs: Any
     ) -> int:
         if not hasattr(self, "model") or self.model is None:
             self.load_onnx_model()  # loads the tokenizer as well
diff --git a/fastembed/sparse/minicoil.py b/fastembed/sparse/minicoil.py
@@ -188,7 +188,7 @@ def load_onnx_model(self) -> None:
         )
 
     def token_count(
-        self, texts: Union[str, Iterable[str]], batch_size: int = 1024, **kwargs: Any
+        self, texts: str | Iterable[str], batch_size: int = 1024, **kwargs: Any
     ) -> int:
         return self._token_count(texts, batch_size=batch_size, **kwargs)
 
diff --git a/fastembed/sparse/sparse_embedding_base.py b/fastembed/sparse/sparse_embedding_base.py
@@ -85,6 +85,6 @@ def query_embed(self, query: str | Iterable[str], **kwargs: Any) -> Iterable[Spa
         else:
             yield from self.embed(query, **kwargs)
 
-    def token_count(self, texts: Union[str, Iterable[str]], **kwargs: Any) -> int:
+    def token_count(self, texts: str | Iterable[str], **kwargs: Any) -> int:
         """Returns the number of tokens in the texts."""
         raise NotImplementedError("Subclasses must implement this method")
diff --git a/fastembed/sparse/sparse_text_embedding.py b/fastembed/sparse/sparse_text_embedding.py
@@ -128,7 +128,7 @@ def query_embed(self, query: str | Iterable[str], **kwargs: Any) -> Iterable[Spa
         yield from self.model.query_embed(query, **kwargs)
 
     def token_count(
-        self, texts: Union[str, Iterable[str]], batch_size: int = 1024, **kwargs: Any
+        self, texts: str | Iterable[str], batch_size: int = 1024, **kwargs: Any
     ) -> int:
         """Returns the number of tokens in the texts.
 
diff --git a/fastembed/sparse/splade_pp.py b/fastembed/sparse/splade_pp.py
@@ -54,7 +54,7 @@ def _post_process_onnx_output(
             yield SparseEmbedding(values=scores, indices=indices)
 
     def token_count(
-        self, texts: Union[str, Iterable[str]], batch_size: int = 1024, **kwargs: Any
+        self, texts: str | Iterable[str], batch_size: int = 1024, **kwargs: Any
     ) -> int:
         return self._token_count(texts, batch_size=batch_size, **kwargs)
 
diff --git a/fastembed/text/onnx_embedding.py b/fastembed/text/onnx_embedding.py
@@ -332,7 +332,7 @@ def load_onnx_model(self) -> None:
         )
 
     def token_count(
-        self, texts: Union[str, Iterable[str]], batch_size: int = 1024, **kwargs: Any
+        self, texts: str | Iterable[str], batch_size: int = 1024, **kwargs: Any
     ) -> int:
         return self._token_count(texts, batch_size=batch_size, **kwargs)
 
diff --git a/fastembed/text/onnx_text_model.py b/fastembed/text/onnx_text_model.py
@@ -159,9 +159,7 @@ def _embed_documents(
             for batch in pool.ordered_map(iter_batch(documents, batch_size), **params):
                 yield from self._post_process_onnx_output(batch, **kwargs)  # type: ignore
 
-    def _token_count(
-        self, texts: Union[str, Iterable[str]], batch_size: int = 1024, **_: Any
-    ) -> int:
+    def _token_count(self, texts: str | Iterable[str], batch_size: int = 1024, **_: Any) -> int:
         if not hasattr(self, "model") or self.model is None:
             self.load_onnx_model()  # loads the tokenizer as well
 
diff --git a/fastembed/text/text_embedding.py b/fastembed/text/text_embedding.py
@@ -214,7 +214,7 @@ def passage_embed(self, texts: Iterable[str], **kwargs: Any) -> Iterable[NumpyAr
         yield from self.model.passage_embed(texts, **kwargs)
 
     def token_count(
-        self, texts: Union[str, Iterable[str]], batch_size: int = 1024, **kwargs: Any
+        self, texts: str | Iterable[str], batch_size: int = 1024, **kwargs: Any
     ) -> int:
         """Returns the number of tokens in the texts.
 
diff --git a/fastembed/text/text_embedding_base.py b/fastembed/text/text_embedding_base.py
@@ -70,6 +70,6 @@ def embedding_size(self) -> int:
         """Returns embedding size for the current model"""
         raise NotImplementedError("Subclasses must implement this method")
 
-    def token_count(self, texts: Union[str, Iterable[str]], **kwargs: Any) -> int:
+    def token_count(self, texts: str | Iterable[str], **kwargs: Any) -> int:
         """Returns the number of tokens in the texts."""
         raise NotImplementedError("Subclasses must implement this method")

Original file line number	Diff line number	Diff line change
`@@ -188,7 +188,7 @@ def load_onnx_model(self) -> None:`
`188`	`188`	`)`
`189`	`189`
`190`	`190`	`def token_count(`
`191`		`- self, texts: Union[str, Iterable[str]], batch_size: int = 1024, **kwargs: Any`
	`191`	`+ self, texts: str \| Iterable[str], batch_size: int = 1024, **kwargs: Any`
`192`	`192`	`) -> int:`
`193`	`193`	`return self._token_count(texts, batch_size=batch_size, **kwargs)`
`194`	`194`