Description of text embedding models, fix for consistency (#317)

mrscoopers · Evgeniya Sukhodolskaya · web-flow · commit 49762a6d199b · 2024-08-12T11:41:07.000+02:00
* Description of text embedding models, fix for consistency

* fixed misplacing of one description

---------

Co-authored-by: Evgeniya Sukhodolskaya &lt;evgeniya.sukhodolskaya@tum.de&gt;
diff --git a/fastembed/text/clip_embedding.py b/fastembed/text/clip_embedding.py
@@ -10,7 +10,7 @@
     {
         "model": "Qdrant/clip-ViT-B-32-text",
         "dim": 512,
-        "description": "CLIP text encoder",
+        "description": "Text embeddings, Multimodal (text&image), English, 77 input tokens truncation, Prefixes for queries/documents: not necessary, 2021 year",
         "size_in_GB": 0.25,
         "sources": {
             "hf": "Qdrant/clip-ViT-B-32-text",
diff --git a/fastembed/text/e5_onnx_embedding.py b/fastembed/text/e5_onnx_embedding.py
@@ -9,7 +9,7 @@
     {
         "model": "intfloat/multilingual-e5-large",
         "dim": 1024,
-        "description": "Multilingual model, e5-large. Recommend using this model for non-English languages",
+        "description": "Text embeddings, Unimodal (text), Multilingual (~100 languages), 512 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 2.24,
         "sources": {
             "url": "https://storage.googleapis.com/qdrant-fastembed/fast-multilingual-e5-large.tar.gz",
@@ -21,7 +21,7 @@
     {
         "model": "sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
         "dim": 768,
-        "description": "Sentence-transformers model for tasks like clustering or semantic search",
+        "description": "Text embeddings, Unimodal (text), Multilingual (~50 languages), 384 input tokens truncation, Prefixes for queries/documents: not necessary, 2021 year",
         "size_in_GB": 1.00,
         "sources": {
             "hf": "xenova/paraphrase-multilingual-mpnet-base-v2",
diff --git a/fastembed/text/onnx_embedding.py b/fastembed/text/onnx_embedding.py
@@ -12,7 +12,7 @@
     {
         "model": "BAAI/bge-base-en",
         "dim": 768,
-        "description": "Base English model",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: necessary, 2023 year",
         "size_in_GB": 0.42,
         "sources": {
             "url": "https://storage.googleapis.com/qdrant-fastembed/fast-bge-base-en.tar.gz",
@@ -22,7 +22,7 @@
     {
         "model": "BAAI/bge-base-en-v1.5",
         "dim": 768,
-        "description": "Base English model, v1.5",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: not so necessary, 2023 year",
         "size_in_GB": 0.21,
         "sources": {
             "url": "https://storage.googleapis.com/qdrant-fastembed/fast-bge-base-en-v1.5.tar.gz",
@@ -33,7 +33,7 @@
     {
         "model": "BAAI/bge-large-en-v1.5",
         "dim": 1024,
-        "description": "Large English model, v1.5",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: not so necessary, 2023 year",
         "size_in_GB": 1.20,
         "sources": {
             "hf": "qdrant/bge-large-en-v1.5-onnx",
@@ -43,7 +43,7 @@
     {
         "model": "BAAI/bge-small-en",
         "dim": 384,
-        "description": "Fast English model",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: necessary, 2023 year",
         "size_in_GB": 0.13,
         "sources": {
             "url": "https://storage.googleapis.com/qdrant-fastembed/BAAI-bge-small-en.tar.gz",
@@ -53,7 +53,7 @@
     {
         "model": "BAAI/bge-small-en-v1.5",
         "dim": 384,
-        "description": "Fast and Default English model",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: not so necessary, 2023 year",
         "size_in_GB": 0.067,
         "sources": {
             "hf": "qdrant/bge-small-en-v1.5-onnx-q",
@@ -63,7 +63,7 @@
     {
         "model": "BAAI/bge-small-zh-v1.5",
         "dim": 512,
-        "description": "Fast and recommended Chinese model",
+        "description": "Text embeddings, Unimodal (text), Chinese, 512 input tokens truncation, Prefixes for queries/documents: not so necessary, 2023 year",
         "size_in_GB": 0.09,
         "sources": {
             "url": "https://storage.googleapis.com/qdrant-fastembed/fast-bge-small-zh-v1.5.tar.gz",
@@ -73,7 +73,7 @@
     {
         "model": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
         "dim": 384,
-        "description": "Sentence Transformer model, paraphrase-multilingual-MiniLM-L12-v2",
+        "description": "Text embeddings, Unimodal (text), Multilingual (~50 languages), 512 input tokens truncation, Prefixes for queries/documents: not necessary, 2019 year",
         "size_in_GB": 0.22,
         "sources": {
             "hf": "qdrant/paraphrase-multilingual-MiniLM-L12-v2-onnx-Q",
@@ -83,7 +83,7 @@
     {
         "model": "thenlper/gte-large",
         "dim": 1024,
-        "description": "Large general text embeddings model",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: not necessary, 2023 year",
         "size_in_GB": 1.20,
         "sources": {
             "hf": "qdrant/gte-large-onnx",
@@ -93,7 +93,7 @@
     {
         "model": "mixedbread-ai/mxbai-embed-large-v1",
         "dim": 1024,
-        "description": "MixedBread Base sentence embedding model, does well on MTEB",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 0.64,
         "sources": {
             "hf": "mixedbread-ai/mxbai-embed-large-v1",
@@ -103,7 +103,7 @@
     {
         "model": "snowflake/snowflake-arctic-embed-xs",
         "dim": 384,
-        "description": "Based on all-MiniLM-L6-v2 model with only 22m parameters, ideal for latency/TCO budgets.",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 0.09,
         "sources": {
             "hf": "snowflake/snowflake-arctic-embed-xs",
@@ -113,7 +113,7 @@
     {
         "model": "snowflake/snowflake-arctic-embed-s",
         "dim": 384,
-        "description": "Based on infloat/e5-small-unsupervised, does not trade off retrieval accuracy for its small size.",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 0.13,
         "sources": {
             "hf": "snowflake/snowflake-arctic-embed-s",
@@ -123,7 +123,7 @@
     {
         "model": "snowflake/snowflake-arctic-embed-m",
         "dim": 768,
-        "description": "Based on intfloat/e5-base-unsupervised model, provides the best retrieval without slowing down inference.",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 0.43,
         "sources": {
             "hf": "Snowflake/snowflake-arctic-embed-m",
@@ -133,7 +133,7 @@
     {
         "model": "snowflake/snowflake-arctic-embed-m-long",
         "dim": 768,
-        "description": "Based on nomic-ai/nomic-embed-text-v1-unsupervised model, 8192 context-length model",
+        "description": "Text embeddings, Unimodal (text), English, 2048 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 0.54,
         "sources": {
             "hf": "snowflake/snowflake-arctic-embed-m-long",
@@ -143,7 +143,7 @@
     {
         "model": "snowflake/snowflake-arctic-embed-l",
         "dim": 1024,
-        "description": "Based on intfloat/e5-large-unsupervised, large model for most accurate retrieval.",
+        "description": "Text embeddings, Unimodal (text), English, 512 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 1.02,
         "sources": {
             "hf": "snowflake/snowflake-arctic-embed-l",
diff --git a/fastembed/text/pooled_embedding.py b/fastembed/text/pooled_embedding.py
@@ -11,7 +11,7 @@
     {
         "model": "nomic-ai/nomic-embed-text-v1.5",
         "dim": 768,
-        "description": "8192 context length english model",
+        "description": "Text embeddings, Multimodal (text, image), English, 8192 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 0.52,
         "sources": {
             "hf": "nomic-ai/nomic-embed-text-v1.5",
@@ -21,7 +21,7 @@
     {
         "model": "nomic-ai/nomic-embed-text-v1.5-Q",
         "dim": 768,
-        "description": "Quantized 8192 context length english model",
+        "description": "Text embeddings, Multimodal (text, image), English, 8192 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 0.13,
         "sources": {
             "hf": "nomic-ai/nomic-embed-text-v1.5",
@@ -31,7 +31,7 @@
     {
         "model": "nomic-ai/nomic-embed-text-v1",
         "dim": 768,
-        "description": "8192 context length english model",
+        "description": "Text embeddings, Multimodal (text, image), English, 8192 input tokens truncation, Prefixes for queries/documents: necessary, 2024 year",
         "size_in_GB": 0.52,
         "sources": {
             "hf": "nomic-ai/nomic-embed-text-v1",
diff --git a/fastembed/text/pooled_normalized_embedding.py b/fastembed/text/pooled_normalized_embedding.py
@@ -12,7 +12,7 @@
     {
         "model": "sentence-transformers/all-MiniLM-L6-v2",
         "dim": 384,
-        "description": "Sentence Transformer model, MiniLM-L6-v2",
+        "description": "Text embeddings, Unimodal (text), English, 256 input tokens truncation, Prefixes for queries/documents: not necessary, 2021 year",
         "size_in_GB": 0.09,
         "sources": {
             "url": "https://storage.googleapis.com/qdrant-fastembed/sentence-transformers-all-MiniLM-L6-v2.tar.gz",
@@ -23,31 +23,31 @@
     {
         "model": "jinaai/jina-embeddings-v2-base-en",
         "dim": 768,
-        "description": "English embedding model supporting 8192 sequence length",
+        "description": "Text embeddings, Unimodal (text), English, 8192 input tokens truncation, Prefixes for queries/documents: not necessary, 2023 year",
         "size_in_GB": 0.52,
         "sources": {"hf": "xenova/jina-embeddings-v2-base-en"},
         "model_file": "onnx/model.onnx",
     },
     {
         "model": "jinaai/jina-embeddings-v2-small-en",
         "dim": 512,
-        "description": "English embedding model supporting 8192 sequence length",
+        "description": "Text embeddings, Unimodal (text), English, 8192 input tokens truncation, Prefixes for queries/documents: not necessary, 2023 year",
         "size_in_GB": 0.12,
         "sources": {"hf": "xenova/jina-embeddings-v2-small-en"},
         "model_file": "onnx/model.onnx",
     },
     {
         "model": "jinaai/jina-embeddings-v2-base-de",
         "dim": 768,
-        "description": "German embedding model supporting 8192 sequence length",
+        "description": "Text embeddings, Unimodal (text), Multilingual (German, English), 8192 input tokens truncation, Prefixes for queries/documents: not necessary, 2024 year",
         "size_in_GB": 0.32,
         "sources": {"hf": "jinaai/jina-embeddings-v2-base-de"},
         "model_file": "onnx/model_fp16.onnx",
     },
     {
         "model": "jinaai/jina-embeddings-v2-base-code",
         "dim": 768,
-        "description": "Source code embedding model supporting 8192 sequence length",
+        "description": "Text embeddings, Unimodal (text), Multilingual (English, 30 programming languages), 8192 input tokens truncation, Prefixes for queries/documents: not necessary, 2024 year",
         "size_in_GB": 0.64,
         "sources": {"hf": "jinaai/jina-embeddings-v2-base-code"},
         "model_file": "onnx/model.onnx",

Original file line number	Diff line number	Diff line change
`@@ -10,7 +10,7 @@`
`10`	`10`	`{`
`11`	`11`	`"model": "Qdrant/clip-ViT-B-32-text",`
`12`	`12`	`"dim": 512,`
`13`		`- "description": "CLIP text encoder",`
	`13`	`+ "description": "Text embeddings, Multimodal (text&image), English, 77 input tokens truncation, Prefixes for queries/documents: not necessary, 2021 year",`
`14`	`14`	`"size_in_GB": 0.25,`
`15`	`15`	`"sources": {`
`16`	`16`	`"hf": "Qdrant/clip-ViT-B-32-text",`