Merge pull request #145 from gomate-community/pipeline

yanqiangmiffy · web-flow · commit 6aaf56e9bbd7 · 2025-04-02T17:29:10.000+08:00
Pipeline
diff --git a/README.md b/README.md
@@ -290,11 +290,16 @@ llm_reranker = PairWiseReranker(reranker_config)
 Waiting to implement...
 </details>
 
+<details>
+<summary>TourRank</summary>
+Waiting to implement...
+</details>
+
 <details>
 <summary>SetWise-Rerank</summary>
 We have one setwise method so far:
 
-`setwise likelihood`: LLMs are prompted to judge which document is the most relevant to the given query. Candidate documents are reranked based on the likelihood of generating the label as the most relevant document by LLMs. It is the base rerank method used in (https://arxiv.org/pdf/2310.09497).
+`setwise likelihood`: LLMs are prompted to judge which document is the most relevant to the given query. Candidate documents are reranked based on the likelihood of generating the label as the most relevant document by LLMs. It is the base rerank method used in [A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models](https://arxiv.org/pdf/2310.09497).
 
 ```python
 from trustrag.modules.reranker.llm_reranker import LLMRerankerConfig, SetWiseReranker
@@ -427,6 +432,7 @@ If the group is full or for cooperation and exchange, please contact:
 >This project thanks the following open-source projects for their support and contributions:
 - Document parsing: [infiniflow/ragflow](https://github.com/infiniflow/ragflow/blob/main/deepdoc/README.md)
 - PDF file parsing: [opendatalab/MinerU](https://github.com/opendatalab/MinerU)
+- Document rerank: [ielab/llm-rankers](https://github.com/ielab/llm-rankers)
 
 
 ## 👉 Citation
diff --git a/README_zh.md b/README_zh.md
@@ -249,12 +249,81 @@ for result in results:
 ```
 
 ### 5 排序模型
+<details>
+<summary>Bge-Rerank</summary>
+
+我们使用 [bge-reranker](https://github.com/FlagOpen/FlagEmbedding)作为我们的基础重排序模型。
 ```python
+from trustrag.modules.reranker.bge_reranker import BgeReranker, BgeRerankerConfig
 reranker_config = BgeRerankerConfig(
-    model_name_or_path=reranker_model_path
+    model_name_or_path='llms/bge-reranker-large'
 )
 bge_reranker = BgeReranker(reranker_config)
 ```
+</details>
+
+<details>
+<summary>PointWise-Rerank</summary>
+我们目前实现了2种Pointwise排序方法:
+
+`相关性生成`: 提示LLMs判断给定查询和文档是否相关。基于LLMs生成"是"响应的可能性对候选文档进行重排序。该方法源于[Holistic Evaluation of Language Models](https://arxiv.org/pdf/2211.09110).
+
+`查询生成`: 提示LLMs根据给定文档生成伪查询。基于LLMs生成目标查询的可能性对候选文档进行重排序。该方法源于[Improving Passage Retrieval with Zero-Shot Question Generation](https://arxiv.org/pdf/2204.07496).
+
+我们已实现[flan-t5](https://huggingface.co/docs/transformers/model_doc/flan-t5)作为我们的Pointwise重排序模型。
+```python
+from trustrag.modules.reranker.llm_reranker import LLMRerankerConfig, PointWiseReranker
+reranker_config = LLMRerankerConfig(
+    model_name_or_path="flan-t5-small"
+)
+llm_reranker = PointWiseReranker(reranker_config)
+```
+</details>
+
+<details>
+<summary>PairWise-Rerank</summary>
+我们目前实现了2种Pairwise排序方法:
+
+`全排序`: 提示LLMs判断哪个文档比另一个文档与给定查询更相关。候选文档基于他们赢得的次数进行排序。该方法源于[Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting](https://arxiv.org/pdf/2306.17563).
+
+`冒泡排序`: 提示LLMs判断哪个文档比另一个文档与给定查询更相关。候选文档使用冒泡排序算法重新排序。该方法源于[Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting](https://arxiv.org/pdf/2306.17563).
+
+```python
+from trustrag.modules.reranker.llm_reranker import LLMRerankerConfig, PairWiseReranker
+reranker_config = LLMRerankerConfig(
+    model_name_or_path="qwen2-7B-instruct"
+)
+llm_reranker = PairWiseReranker(reranker_config)
+```
+</details>
+
+<details>
+<summary>ListWise-Rerank</summary>
+正在实施...
+</details>
+
+<details>
+<summary>TourRank</summary>
+正在实施...
+</details>
+
+<details>
+<summary>SetWise-Rerank</summary>
+我们目前实现了1种Setwise排序方法:
+
+`概率重排`: 提示LLMs判断哪个文档是与给定查询最相关的。基于LLMs生成作为最相关文档的标签的可能性对候选文档进行重排序。该方法源于[A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models](https://arxiv.org/pdf/2310.09497).
+
+```python
+from trustrag.modules.reranker.llm_reranker import LLMRerankerConfig, SetWiseReranker
+reranker_config = LLMRerankerConfig(
+    model_name_or_path="qwen2-7B-instruct"
+)
+llm_reranker = SetWiseReranker(reranker_config)
+```
+</details>
+
+欲了解更多详情，请参考[reranker inference](./examples/rerankers/).
+
 ### 6 生成器配置
 ```python
 glm4_chat = GLM4Chat(llm_model_path)
diff --git a/trustrag/applications/rag.py b/trustrag/applications/rag.py
@@ -15,7 +15,7 @@
 from trustrag.modules.reranker.bge_reranker import BgeReranker
 from trustrag.modules.retrieval.dense_retriever import DenseRetriever
 from trustrag.modules.document.chunk import TextChunker
-from trustrag.modules.retrieval.embedding import FlagModelEmbedding
+from trustrag.modules.vector.embedding import FlagModelEmbedding
 class ApplicationConfig():
     def __init__(self):
         self.retriever_config = None
diff --git a/trustrag/modules/engine/chroma.py b/trustrag/modules/engine/chroma.py
@@ -1,8 +1,7 @@
 from typing import List, Dict, Any, Union
 import numpy as np
 import chromadb
-from chromadb.config import Settings
-from trustrag.modules.retrieval.embedding import EmbeddingGenerator
+from trustrag.modules.vector.embedding import EmbeddingGenerator
 
 
 class ChromaEngine:
diff --git a/trustrag/modules/engine/milvus.py b/trustrag/modules/engine/milvus.py
@@ -2,7 +2,7 @@
 from typing import List, Dict, Any, Optional
 import numpy as np
 from openai import OpenAI
-from trustrag.modules.retrieval.embedding import EmbeddingGenerator
+from trustrag.modules.vector.embedding import EmbeddingGenerator
 from typing import Union
 class MilvusEngine:
     def __init__(
diff --git a/trustrag/modules/engine/qdrant.py b/trustrag/modules/engine/qdrant.py
@@ -4,7 +4,7 @@
 from abc import ABC, abstractmethod
 import numpy as np
 from openai import OpenAI
-from trustrag.modules.retrieval.embedding import EmbeddingGenerator
+from trustrag.modules.vector.embedding import EmbeddingGenerator
 
 
 class QdrantEngine:
diff --git a/trustrag/modules/engine/weaviate_cli.py b/trustrag/modules/engine/weaviate_cli.py
@@ -5,7 +5,7 @@
 from weaviate.collections import Collection
 import weaviate.classes.config as wc
 from weaviate.classes.config import Property, DataType
-from trustrag.modules.retrieval.embedding import EmbeddingGenerator
+from trustrag.modules.vector.embedding import EmbeddingGenerator
 from  weaviate.classes.query import MetadataQuery
 
 class WeaviateEngine: