codefuse-ai
diff --git a/‎README.md
+2-1 b/‎README.md
+2-1
diff --git a/‎README_CN.md
+51-34 b/‎README_CN.md
+51-34
diff --git a/‎docs/cache-service-cost-time-distribution.webp
11.2 KB b/‎docs/cache-service-cost-time-distribution.webp
11.2 KB
diff --git a/‎docs/time-cost-comparison.webp
63.1 KB b/‎docs/time-cost-comparison.webp
63.1 KB
diff --git a/‎mulicache-readme-cn.md
+127 b/‎mulicache-readme-cn.md
+127
@@ -43,6 +43,7 @@ ModelCache
 
 ## News
 
+- 🔥🔥[2024.10.22] Added tasks for 1024 developer day.
 - 🔥🔥[2024.04.09] Added Redis Search to store and retrieve embeddings in multi-tenant. This can reduce the interaction time between Cache and vector databases to 10ms.
 - 🔥🔥[2023.12.10] Integrated LLM embedding frameworks such as 'llmEmb', 'ONNX', 'PaddleNLP', 'FastText', and the image embedding framework 'timm' to bolster embedding functionality.
 - 🔥🔥[2023.11.20] Integrated local storage, such as sqlite and faiss. This enables you to initiate quick and convenient tests.
@@ -60,7 +61,7 @@ Codefuse-ModelCache is a semantic cache for large language models (LLMs). By cac
 
 You can find the start script in `flask4modelcache.py` and `flask4modelcache_demo.py`.
 
-- `flask4modelcache_demo.py`: A quick test service that embeds SQLite and FAISS.  No database configuration required.
+- `flask4modelcache_demo.py`: A quick test service that embeds SQLite and FAISS. No database configuration required.
 - `flask4modelcache.py`: The standard service that requires MySQL and Milvus configuration.
 
 ### Dependencies
 
@@ -16,19 +16,35 @@ ModelCache
 
 ## Contents
 
+- [Contents](#contents)
 - [新闻](#新闻)
 - [项目简介](#项目简介)
+- [架构大图](#架构大图)
 - [快速部署](#快速部署)
+  - [环境依赖](#环境依赖)
+  - [启动服务](#启动服务)
+    - [启动 Demo](#启动-demo)
+    - [启动标准服务](#启动标准服务)
 - [服务访问](#服务访问)
+  - [写入 cache](#写入-cache)
+  - [查询 cache](#查询-cache)
+  - [清空 cache](#清空-cache)
 - [文章](#文章)
-- [架构大图](#架构大图)
+- [功能对比](#功能对比)
 - [核心功能](#核心功能)
+- [Todo List](#todo-list)
+  - [Adapter](#adapter)
+  - [Embedding model\&inference](#embedding-modelinference)
+  - [Scalar Storage](#scalar-storage)
+  - [Vector Storage](#vector-storage)
+  - [Ranking](#ranking)
+  - [Service](#service)
 - [致谢](#致谢)
-- [Contributing](#Contributing)
+- [Contributing](#contributing)
 
 ## 新闻
 
-- 🔥🔥[2024.10.22] 增加1024程序员节任务。 
+- 🔥🔥[2024.10.22] 增加1024程序员节任务。
 - 🔥🔥[2024.04.09] 增加了多租户场景中Redis Search存储和检索embedding的能力，可以将Cache和向量数据库的交互耗时降低至10ms内。
 - 🔥🔥[2023.12.10] 增加llmEmb、onnx、paddlenlp、fasttext等LLM embedding框架，并增加timm 图片embedding框架，用于提供更丰富的embedding能力。
 - 🔥🔥[2023.11.20] codefuse-ModelCache增加本地存储能力, 适配了嵌入式数据库sqlite、faiss，方便用户快速启动测试。
@@ -38,53 +54,58 @@ ModelCache
 
 Codefuse-ModelCache 是一个开源的大模型语义缓存系统，通过缓存已生成的模型结果，降低类似请求的响应时间，提升用户体验。该项目从服务优化角度出发，引入缓存机制，在资源有限和对实时性要求较高的场景下，帮助企业和研究机构降低推理部署成本、提升模型性能和效率、提供规模化大模型服务。我们希望通过开源，分享交流大模型语义Cache的相关技术。
 
+## 架构大图
+
+![modelcache modules](docs/modelcache_modules_20240409.png)
+
 ## 快速部署
 
-项目中启动服务脚本分为flask4modelcache.py 和 flask4modelcache_demo.py，其中：
+项目中启动服务脚本分为 `flask4modelcache.py` 和 `flask4modelcache_demo.py`，其中：
 
-- flask4modelcache_demo.py 为快速测试服务，内嵌了sqlite和faiss，用户无需关心数据库相关事宜。
-- flask4modelcache.py 为正常服务，需用户具备mysql和milvus等数据库服务。
+- `flask4modelcache_demo.py` 为快速测试服务，内嵌了 SQLite 和 FAISS，用户无需关心数据库相关事宜。
+- `flask4modelcache.py` 为正常服务，需用户具备 MySQL 和 Milvus 等数据库服务。
 
 ### 环境依赖
 
-- python版本: 3.8及以上
+- python版本: 3.8 及以上
 - 依赖包安装：
 
   ```shell
   pip install -r requirements.txt 
   ```
 
-### 服务启动
+### 启动服务
 
-#### Demo服务启动
+#### 启动 Demo
 
-- 离线模型bin文件下载， 参考地址：[https://huggingface.co/shibing624/text2vec-base-chinese/tree/main](https://huggingface.co/shibing624/text2vec-base-chinese/tree/main)，并将下载的bin文件，放到 model/text2vec-base-chinese 文件夹中。
-- 执行flask4modelcache_demo.py启动服务。
+- 离线模型 bin 文件下载， 参考地址：[Hugging Face](https://huggingface.co/shibing624/text2vec-base-chinese/tree/main)，并将下载的 bin 文件，放到 `model/text2vec-base-chinese` 文件夹中。
+- 执行 `flask4modelcache_demo.py` 启动服务。
 
-```shell
-cd CodeFuse-ModelCache
-```
-```shell
-python flask4modelcache_demo.py
-```
+  ```shell
+  cd CodeFuse-ModelCache
+  ```
+
+  ```shell
+  python flask4modelcache_demo.py
+  ```
 
-#### 正常服务启动
+#### 启动标准服务
 
-在启动服务前，应该进行如下环境配置：
+在启动标准服务前，应该进行如下环境配置：
 
-1. 安装关系数据库 mysql， 导入sql创建数据表，sql文件:```reference_doc/create_table.sql```
-2. 安装向量数据库milvus
+1. 安装关系数据库 MySQL， 导入 SQL 创建数据表，MySQL 文件:```reference_doc/create_table.sql```。
+2. 安装向量数据库 Milvus。
 3. 在配置文件中添加数据库访问信息，配置文件为：
    1. ```modelcache/config/milvus_config.ini```
    2. ```modelcache/config/mysql_config.ini```
-4. 离线模型bin文件下载， 参考地址：[https://huggingface.co/shibing624/text2vec-base-chinese/tree/main](https://huggingface.co/shibing624/text2vec-base-chinese/tree/main)，并将下载的bin文件，放到 model/text2vec-base-chinese 文件夹中
+4. 离线模型 bin 文件下载， 参考地址：[Hugging Face](https://huggingface.co/shibing624/text2vec-base-chinese/tree/main)，并将下载的 bin 文件，放到 `model/text2vec-base-chinese` 文件夹中。
 5. 通过flask4modelcache.py脚本启动后端服务。
 
 ## 服务访问
 
-当前服务以restful API方式提供3个核心功能：数据写入，cache查询和cache数据清空。请求demo 如下：
+当前服务以 restful API 方式提供 3 个核心功能：数据写入，cache 查询和 cache 数据清空。请求 demo 如下：
 
-### cache写入
+### 写入 cache
 
 ```python
 import json
@@ -99,7 +120,7 @@ headers = {"Content-Type": "application/json"}
 res = requests.post(url, headers=headers, json=json.dumps(data))
 ```
 
-### cache查询
+### 查询 cache
 
 ```python
 import json
@@ -114,7 +135,7 @@ headers = {"Content-Type": "application/json"}
 res = requests.post(url, headers=headers, json=json.dumps(data))
 ```
 
-### cache清空
+### 清空 cache
 
 ```python
 import json
@@ -133,13 +154,9 @@ res = requests.post(url, headers=headers, json=json.dumps(data))
 
 https://mp.weixin.qq.com/s/ExIRu2o7yvXa6nNLZcCfhQ
 
-## 架构大图
-
-![modelcache modules](docs/modelcache_modules_20240409.png)
-
 ## 功能对比
 
-功能方面，为了解决huggingface网络问题并提升推理速度，增加了embedding本地推理能力。鉴于SqlAlchemy框架存在一些限制，我们对关系数据库交互模块进行了重写，以更灵活地实现数据库操作。在实践中，大型模型产品需要与多个用户和多个模型对接，因此在ModelCache中增加了对多租户的支持，同时也初步兼容了系统指令和多轮会话。
+功能方面，为了解决 Hugging Face 网络问题并提升推理速度，增加了 embedding 本地推理能力。鉴于 SqlAlchemy 框架存在一些限制，我们对关系数据库交互模块进行了重写，以更灵活地实现数据库操作。在实践中，大型模型产品需要与多个用户和多个模型对接，因此在 ModelCache 中增加了对多租户的支持，同时也初步兼容了系统指令和多轮会话。
 
 <table>
   <tr>
@@ -264,7 +281,7 @@ https://mp.weixin.qq.com/s/ExIRu2o7yvXa6nNLZcCfhQ
 
 ## 核心功能
 
-在ModelCache中，沿用了GPTCache的主要思想，包含了一系列核心模块：adapter、embedding、similarity和data_manager。adapter模块主要功能是处理各种任务的业务逻辑，并且能够将embedding、similarity、data_manager等模块串联起来；embedding模块主要负责将文本转换为语义向量表示，它将用户的查询转换为向量形式，并用于后续的召回或存储操作；rank模块用于对召回的向量进行相似度排序和评估；data_manager模块主要用于管理数据库。同时，为了更好的在工业界落地，我们做了架构和功能上的升级，如下：
+在ModelCache  中，沿用了 GPTCache 的主要思想，包含了一系列核心模块：adapter、embedding、similarity 和 data_manager。adapter模块主要功能是处理各种任务的业务逻辑，并且能够将  embedding、similarity、data_manager等模块串联起来；embedding  模块主要负责将文本转换为语义向量表示，它将用户的查询转换为向量形式，并用于后续的召回或存储操作；rank 模块用于对召回的向量进行相似度排序和评估；data_manager 模块主要用于管理数据库。同时，为了更好的在工业界落地，我们做了架构和功能上的升级，如下：
 
 - [x] 架构调整（轻量化集成）：以类redis的缓存模式嵌入到大模型产品中，提供语义缓存能力，不会干扰LLM调用和安全审核等功能，适配所有大模型服务。
 - [x] 多种模型加载方案：
@@ -286,11 +303,11 @@ https://mp.weixin.qq.com/s/ExIRu2o7yvXa6nNLZcCfhQ
 
 ### Adapter
 
-- [ ] register adapter for Milvus：根据scope中的model参数，初始化对应Collection 并且执行load操作。
+- [ ] register adapter for Milvus：根据 scope 中的 model 参数，初始化对应 Collection 并且执行 load 操作。
 
 ### Embedding model&inference
 
-- [ ] inference优化：优化embedding推理速度，适配fastertransformer, TurboTransformers, ByteTransformer等推理引擎。
+- [ ] inference 优化：优化 embedding 推理速度，适配fastertransformer、TurboTransformers 和 ByteTransformer 等推理引擎。
 - [ ] 兼容huggingface模型和modelscope模型，提供更多模型加载方式。
 
 ### Scalar Storage
 
@@ -0,0 +1,127 @@
+# MultiModal Cache
+
+为满足多模态的性能要求，我们在 LLModel Cache 的基础上，开发了 MultiModal Cache 系统。MultiModal Cache 增强了 ModelCache 功能，架优化架构，适应多种应用场景。
+
+- [MultiModal Cache](#multimodal-cache)
+  - [最新动态](#最新动态)
+  - [特性](#特性)
+  - [性能](#性能)
+  - [效果评估](#效果评估)
+  - [参与贡献](#参与贡献)
+
+## 最新动态
+
+- [2024.12.12] MultiModal Cache 系统正式发布。
+
+## 特性
+
+| 场景 | 数据类型 | 图像格式 | 数据隔离 |
+|------|----------|----------|----------|
+| 文本对话 | 文本 | 不适用 | 支持 |
+| 图文理解 | 文本+图像 | image_url/image_base64 | 支持 |
+
+- **兼容性**：支持文本和图片链接（image_url）和图片 Base64 编码三种数据格式及其组合。
+- **数据隔离**：支持多模型数据隔离，允许不同数据模型在同一系统中独立运行。
+- **模态隔离**：支持同一模型下不同模态数据（如文本和图像）的隔离处理。
+
+## 性能
+
+我们在生产环境中使用企业级数据库对 MultiModal Cache 进行了全面的性能评估。以下是详细的性能数据：
+
+<table cellpadding="5" cellspacing="0" style="border-collapse: collapse;">
+  <tr style="background-color: #B8D4FF;">
+    <th>请求类型</th>
+    <th>Cache Hit</th>
+    <th>总耗时范围</th>
+    <th>组件</th>
+    <th>组件耗时</th>
+  </tr>
+  <tr style="background-color: #F2F2F2;">
+    <td rowspan="6">Text</td>
+    <td rowspan="3">Hit</td>
+    <td rowspan="3">420ms-520ms</td>
+    <td>Multi-Encoder (Text):</td>
+    <td>~300ms</td>
+  </tr>
+  <tr style="background-color: #F2F2F2;">
+    <td>向量存储检索</td>
+    <td>40-50ms</td>
+  </tr>
+  <tr style="background-color: #F2F2F2;">
+    <td>关系存储检索</td>
+    <td>60-70ms</td>
+  </tr>
+  <tr>
+    <td rowspan="3">Not Hit</td>
+    <td rowspan="3">300ms+N(s)</td>
+    <td>Multi-Encoder (Text):</td>
+    <td>~300ms</td>
+  </tr>
+  <tr>
+    <td>向量存储检索</td>
+    <td>40-50ms</td>
+  </tr>
+  <tr>
+    <td>大模型调用</td>
+    <td>N (s)</td>
+  </tr>
+  <tr style="background-color: #F2F2F2;">
+    <td rowspan="6">IMG_TEXT</td>
+    <td rowspan="3">Hit</td>
+    <td rowspan="3">600ms-800ms</td>
+    <td>Multi-Encoder (image+text)</td>
+    <td>~600ms</td>
+  </tr>
+  <tr style="background-color: #F2F2F2;">
+    <td>向量存储检索</td>
+    <td>40-50ms</td>
+  </tr>
+  <tr style="background-color: #F2F2F2;">
+    <td>关系存储检索</td>
+    <td>60-70ms</td>
+  </tr>
+  <tr>
+    <td rowspan="3">Not Hit</td>
+    <td rowspan="3">600ms+N(s)</td>
+    <td>Multi-Encoder (image+text)</td>
+    <td>~600ms</td>
+  </tr>
+  <tr>
+    <td>向量存储检索</td>
+    <td>40-50ms</td>
+  </tr>
+  <tr>
+    <td>大模型调用</td>
+    <td>N (s)</td>
+  </tr>
+</table>
+
+根据目前的评估结果，Embedding 的推理时间存在较大的优化空间。
+**说明**：使用嵌入式数据库可能会进一步提升性能。
+
+## 效果评估
+
+为全面评估 Cache 对模型服务的影响，我们进行了端到端的性能测试，ua 比较了有 Cache 和无 Cache 两种服务配置。我们使用了 5000 个测试用例的数据集进行自动化测试。
+
+- 有 Cache 的预发模型服务：观察其响应时间，预期 Cache 的引入能够显著提升服务的性能，降低延迟。
+- 无 Cache 的线上模型服务，以获取其原始性能指标和输出结果。这些数据将作为对比基准。
+
+为了确保 Cache 引入后的数据准确性和一致性，我们比较了两个服务返回的结果，验证了 Cache 机制是否会影响最终用户收到的回复内容。
+
+与原始的直接模型调用方式相比，Cache Service 的调用耗时数据呈现出稳定的分布特征，性能上并不会随着模型参数规模的增加而受到影响。在传统情况下，随着模型参数规模的扩大，模型调用的耗时往往会上升，这是因为更大规模的模型需要更多的计算资源。Cache 服务通过存储经常访问的数据来避免重复的计算，从而一定程度上解耦了耗时与模型复杂性之间的关联。
+
+![cache-service-cost-time-distribution](docs/cache-service-cost-time-distribution.webp)
+
+我们对缓存命中的耗时与实际调用模型的耗时进行了对比分析。实验数据表明，在集成  Cache Service之后，基于 llama7B 模型，缓存命中所带来的性能提升超过了 40%。预计随着模型的持续迭代与优化，性能提升的幅度将会有更进一步的增长。
+
+![time-cost-comparison](docs/time-cost-comparison.webp)
+
+## 参与贡献
+
+MultiModal Cache 是一个充满潜力的开源项目，我们欢迎各种形式的贡献：
+
+- 提交问题和建议
+- 参与代码编写
+- 完善文档和示例
+
+无论您是经验丰富的开发者还是新手，您的参与都将使这个项目更加出色，同时为开源社区做出贡献。