update

amber-moe · amber-moe · commit e6ef83c757dd · 2024-12-20T14:46:34.000+08:00
diff --git a/README.md b/README.md
@@ -43,6 +43,7 @@ ModelCache
 
 ## News
 
+- 🔥🔥[2024.10.22] Added tasks for 1024 developer day.
 - 🔥🔥[2024.04.09] Added Redis Search to store and retrieve embeddings in multi-tenant. This can reduce the interaction time between Cache and vector databases to 10ms.
 - 🔥🔥[2023.12.10] Integrated LLM embedding frameworks such as 'llmEmb', 'ONNX', 'PaddleNLP', 'FastText', and the image embedding framework 'timm' to bolster embedding functionality.
 - 🔥🔥[2023.11.20] Integrated local storage, such as sqlite and faiss. This enables you to initiate quick and convenient tests.
@@ -60,7 +61,7 @@ Codefuse-ModelCache is a semantic cache for large language models (LLMs). By cac
 
 You can find the start script in `flask4modelcache.py` and `flask4modelcache_demo.py`.
 
-- `flask4modelcache_demo.py`: A quick test service that embeds SQLite and FAISS.  No database configuration required.
+- `flask4modelcache_demo.py`: A quick test service that embeds SQLite and FAISS. No database configuration required.
 - `flask4modelcache.py`: The standard service that requires MySQL and Milvus configuration.
 
 ### Dependencies
diff --git a/README_CN.md b/README_CN.md
@@ -16,19 +16,35 @@ ModelCache
 
 ## Contents
 
+- [Contents](#contents)
 - [新闻](#新闻)
 - [项目简介](#项目简介)
+- [架构大图](#架构大图)
 - [快速部署](#快速部署)
+  - [环境依赖](#环境依赖)
+  - [启动服务](#启动服务)
+    - [启动 Demo](#启动-demo)
+    - [启动标准服务](#启动标准服务)
 - [服务访问](#服务访问)
+  - [写入 cache](#写入-cache)
+  - [查询 cache](#查询-cache)
+  - [清空 cache](#清空-cache)
 - [文章](#文章)
-- [架构大图](#架构大图)
+- [功能对比](#功能对比)
 - [核心功能](#核心功能)
+- [Todo List](#todo-list)
+  - [Adapter](#adapter)
+  - [Embedding model\&inference](#embedding-modelinference)
+  - [Scalar Storage](#scalar-storage)
+  - [Vector Storage](#vector-storage)
+  - [Ranking](#ranking)
+  - [Service](#service)
 - [致谢](#致谢)
-- [Contributing](#Contributing)
+- [Contributing](#contributing)
 
 ## 新闻
 
-- 🔥🔥[2024.10.22] 增加1024程序员节任务。 
+- 🔥🔥[2024.10.22] 增加1024程序员节任务。
 - 🔥🔥[2024.04.09] 增加了多租户场景中Redis Search存储和检索embedding的能力，可以将Cache和向量数据库的交互耗时降低至10ms内。
 - 🔥🔥[2023.12.10] 增加llmEmb、onnx、paddlenlp、fasttext等LLM embedding框架，并增加timm 图片embedding框架，用于提供更丰富的embedding能力。
 - 🔥🔥[2023.11.20] codefuse-ModelCache增加本地存储能力, 适配了嵌入式数据库sqlite、faiss，方便用户快速启动测试。
@@ -38,53 +54,58 @@ ModelCache
 
 Codefuse-ModelCache 是一个开源的大模型语义缓存系统，通过缓存已生成的模型结果，降低类似请求的响应时间，提升用户体验。该项目从服务优化角度出发，引入缓存机制，在资源有限和对实时性要求较高的场景下，帮助企业和研究机构降低推理部署成本、提升模型性能和效率、提供规模化大模型服务。我们希望通过开源，分享交流大模型语义Cache的相关技术。
 
+## 架构大图
+
+![modelcache modules](docs/modelcache_modules_20240409.png)
+
 ## 快速部署
 
-项目中启动服务脚本分为flask4modelcache.py 和 flask4modelcache_demo.py，其中：
+项目中启动服务脚本分为 `flask4modelcache.py` 和 `flask4modelcache_demo.py`，其中：
 
-- flask4modelcache_demo.py 为快速测试服务，内嵌了sqlite和faiss，用户无需关心数据库相关事宜。
-- flask4modelcache.py 为正常服务，需用户具备mysql和milvus等数据库服务。
+- `flask4modelcache_demo.py` 为快速测试服务，内嵌了 SQLite 和 FAISS，用户无需关心数据库相关事宜。
+- `flask4modelcache.py` 为正常服务，需用户具备 MySQL 和 Milvus 等数据库服务。
 
 ### 环境依赖
 
-- python版本: 3.8及以上
+- python版本: 3.8 及以上
 - 依赖包安装：
 
   ```shell
   pip install -r requirements.txt 
   ```
 
-### 服务启动
+### 启动服务
 
-#### Demo服务启动
+#### 启动 Demo
 
-- 离线模型bin文件下载， 参考地址：[https://huggingface.co/shibing624/text2vec-base-chinese/tree/main](https://huggingface.co/shibing624/text2vec-base-chinese/tree/main)，并将下载的bin文件，放到 model/text2vec-base-chinese 文件夹中。
-- 执行flask4modelcache_demo.py启动服务。
+- 离线模型 bin 文件下载， 参考地址：[Hugging Face](https://huggingface.co/shibing624/text2vec-base-chinese/tree/main)，并将下载的 bin 文件，放到 `model/text2vec-base-chinese` 文件夹中。
+- 执行 `flask4modelcache_demo.py` 启动服务。
 
-```shell
-cd CodeFuse-ModelCache
-```
-```shell
-python flask4modelcache_demo.py
-```
+  ```shell
+  cd CodeFuse-ModelCache
+  ```
+
+  ```shell
+  python flask4modelcache_demo.py
+  ```
 
-#### 正常服务启动
+#### 启动标准服务
 
-在启动服务前，应该进行如下环境配置：
+在启动标准服务前，应该进行如下环境配置：
 
-1. 安装关系数据库 mysql， 导入sql创建数据表，sql文件:```reference_doc/create_table.sql```
-2. 安装向量数据库milvus
+1. 安装关系数据库 MySQL， 导入 SQL 创建数据表，MySQL 文件:```reference_doc/create_table.sql```。
+2. 安装向量数据库 Milvus。
 3. 在配置文件中添加数据库访问信息，配置文件为：
    1. ```modelcache/config/milvus_config.ini```
    2. ```modelcache/config/mysql_config.ini```
-4. 离线模型bin文件下载， 参考地址：[https://huggingface.co/shibing624/text2vec-base-chinese/tree/main](https://huggingface.co/shibing624/text2vec-base-chinese/tree/main)，并将下载的bin文件，放到 model/text2vec-base-chinese 文件夹中
+4. 离线模型 bin 文件下载， 参考地址：[Hugging Face](https://huggingface.co/shibing624/text2vec-base-chinese/tree/main)，并将下载的 bin 文件，放到 `model/text2vec-base-chinese` 文件夹中。
 5. 通过flask4modelcache.py脚本启动后端服务。
 
 ## 服务访问
 
-当前服务以restful API方式提供3个核心功能：数据写入，cache查询和cache数据清空。请求demo 如下：
+当前服务以 restful API 方式提供 3 个核心功能：数据写入，cache 查询和 cache 数据清空。请求 demo 如下：
 
-### cache写入
+### 写入 cache
 
 ```python
 import json
@@ -99,7 +120,7 @@ headers = {"Content-Type": "application/json"}
 res = requests.post(url, headers=headers, json=json.dumps(data))
 ```
 
-### cache查询
+### 查询 cache
 
 ```python
 import json
@@ -114,7 +135,7 @@ headers = {"Content-Type": "application/json"}
 res = requests.post(url, headers=headers, json=json.dumps(data))
 ```
 
-### cache清空
+### 清空 cache
 
 ```python
 import json
@@ -133,13 +154,9 @@ res = requests.post(url, headers=headers, json=json.dumps(data))
 
 https://mp.weixin.qq.com/s/ExIRu2o7yvXa6nNLZcCfhQ
 
-## 架构大图
-
-![modelcache modules](docs/modelcache_modules_20240409.png)
-
 ## 功能对比
 
-功能方面，为了解决huggingface网络问题并提升推理速度，增加了embedding本地推理能力。鉴于SqlAlchemy框架存在一些限制，我们对关系数据库交互模块进行了重写，以更灵活地实现数据库操作。在实践中，大型模型产品需要与多个用户和多个模型对接，因此在ModelCache中增加了对多租户的支持，同时也初步兼容了系统指令和多轮会话。
+功能方面，为了解决 Hugging Face 网络问题并提升推理速度，增加了 embedding 本地推理能力。鉴于 SqlAlchemy 框架存在一些限制，我们对关系数据库交互模块进行了重写，以更灵活地实现数据库操作。在实践中，大型模型产品需要与多个用户和多个模型对接，因此在 ModelCache 中增加了对多租户的支持，同时也初步兼容了系统指令和多轮会话。
 
 <table>
   <tr>
@@ -264,7 +281,7 @@ https://mp.weixin.qq.com/s/ExIRu2o7yvXa6nNLZcCfhQ
 
 ## 核心功能
 
-在ModelCache中，沿用了GPTCache的主要思想，包含了一系列核心模块：adapter、embedding、similarity和data_manager。adapter模块主要功能是处理各种任务的业务逻辑，并且能够将embedding、similarity、data_manager等模块串联起来；embedding模块主要负责将文本转换为语义向量表示，它将用户的查询转换为向量形式，并用于后续的召回或存储操作；rank模块用于对召回的向量进行相似度排序和评估；data_manager模块主要用于管理数据库。同时，为了更好的在工业界落地，我们做了架构和功能上的升级，如下：
+在ModelCache  中，沿用了 GPTCache 的主要思想，包含了一系列核心模块：adapter、embedding、similarity 和 data_manager。adapter模块主要功能是处理各种任务的业务逻辑，并且能够将  embedding、similarity、data_manager等模块串联起来；embedding  模块主要负责将文本转换为语义向量表示，它将用户的查询转换为向量形式，并用于后续的召回或存储操作；rank 模块用于对召回的向量进行相似度排序和评估；data_manager 模块主要用于管理数据库。同时，为了更好的在工业界落地，我们做了架构和功能上的升级，如下：
 
 - [x] 架构调整（轻量化集成）：以类redis的缓存模式嵌入到大模型产品中，提供语义缓存能力，不会干扰LLM调用和安全审核等功能，适配所有大模型服务。
 - [x] 多种模型加载方案：
@@ -286,11 +303,11 @@ https://mp.weixin.qq.com/s/ExIRu2o7yvXa6nNLZcCfhQ
 
 ### Adapter
 
-- [ ] register adapter for Milvus：根据scope中的model参数，初始化对应Collection 并且执行load操作。
+- [ ] register adapter for Milvus：根据 scope 中的 model 参数，初始化对应 Collection 并且执行 load 操作。
 
 ### Embedding model&inference
 
-- [ ] inference优化：优化embedding推理速度，适配fastertransformer, TurboTransformers, ByteTransformer等推理引擎。
+- [ ] inference 优化：优化 embedding 推理速度，适配fastertransformer、TurboTransformers 和 ByteTransformer 等推理引擎。
 - [ ] 兼容huggingface模型和modelscope模型，提供更多模型加载方式。
 
 ### Scalar Storage