💬Generate LLM translations (#2111)

github-actions[bot] · web-flow · commit 07cbb0eb4d60 · 2025-05-14T08:53:50.000-04:00
Co-authored-by: github-actions[bot] &lt;41898282+github-actions[bot]@users.noreply.github.com&gt;
diff --git a/docs/cn/guides/55-performance/ngram-index.md b/docs/cn/guides/55-performance/ngram-index.md
@@ -0,0 +1,122 @@
+---
+title: Ngram 索引
+---
+
+import EEFeature from '@site/src/components/EEFeature';
+
+<EEFeature featureName='NGRAM INDEX'/>
+
+Ngram 索引是一种专门的索引技术，可以提高使用带有 `%` 通配符的 `LIKE` 运算符的模式匹配查询的性能。这些查询在需要子字符串或模糊匹配的应用程序中很常见，例如在产品描述、用户评论或日志数据中搜索关键字。
+
+与传统索引不同，当搜索模式没有固定前缀时（例如，`LIKE '%keyword%'`），传统索引通常无效，Ngram 索引将文本分解为重叠的子字符串（n-gram）并对其进行索引以实现快速查找。这使得 Databend 能够有效地缩小匹配行的范围，避免代价昂贵的全表扫描。
+
+## Ngram 索引的工作原理
+
+Databend 中的 Ngram 索引是使用字符级 n-gram 构建的。当对列进行索引时，其文本内容被视为连续的字符序列，包括字母、空格和标点符号。然后，文本被分割成所有可能的固定长度的重叠子字符串，由 gram_size 参数定义。
+
+例如，对于 `gram_size = 3`，字符串：
+
+```text
+The quick brown
+```
+
+将被分割成以下 3 个字符的子字符串：
+
+```text
+"The", "he ", "e q", " qu", "qui", "uic", "ick", "ck ", "k b", " br", "bro", "row", "own"
+```
+
+这些子字符串存储在索引中，并用于加速使用 `LIKE` 运算符的查询中的模式匹配。
+当查询例如：
+
+```sql
+SELECT * FROM t WHERE content LIKE '%quick br%'
+```
+
+发出时，条件 `%quick br%` 也会被标记化为三元组，例如 "qui", "uic", "ick", "ck ", "k b", " br" 等。Databend 使用这些通过 n-gram 索引过滤数据块，然后再应用完整的 `LIKE` 过滤器，从而显著减少扫描的数据量。
+
+:::note
+- 仅当要匹配的模式至少与 `gram_size` 一样长时，索引才有效。短模式（例如，gram_size = 3 的 '%yo%'）不会从索引中受益。
+
+- 使用 Ngram 索引时，匹配不区分大小写。例如，搜索 "FOO" 将匹配 "foo"、"Foo" 或 "fOo"。
+:::
+
+## 管理 Ngram 索引
+
+Databend 提供了各种命令来管理 Ngram 索引。有关详细信息，请参见 [Ngram 索引](/sql/sql-commands/ddl/ngram-index/)。
+
+## 使用示例
+
+要加速使用 `LIKE` 运算符的模糊字符串搜索，可以在表的一个或多个 STRING 列上创建 Ngram 索引。此示例显示了如何创建表、定义 Ngram 索引、插入示例数据以及验证索引是否在查询计划中使用。
+
+首先，创建一个简单的表来存储文本数据：
+
+```sql
+CREATE TABLE t_articles (
+    id INT,
+    content STRING
+);
+```
+
+接下来，在 `content` 列上创建一个 Ngram 索引。`gram_size` 参数定义每个 n-gram 段中使用的字符数：
+
+```sql
+CREATE NGRAM INDEX ngram_idx_content
+ON t_articles(content)
+gram_size = 3;
+```
+
+要显示创建的索引：
+
+```sql
+SHOW INDEXES;
+```
+
+```sql
+┌─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
+│        name       │  type  │ original │            definition            │         created_on         │      updated_on     │
+├───────────────────┼────────┼──────────┼──────────────────────────────────┼────────────────────────────┼─────────────────────┤
+│ ngram_idx_content │ NGRAM  │          │ t_articles(content)gram_size='3' │ 2025-05-13 01:02:58.598409 │ NULL                │
+└─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘
+```
+
+现在插入大量行。大多数条目包含不相关的文本，但少数条目包含我们稍后要匹配的关键字：
+
+```sql
+-- 插入 995 个不相关的行
+INSERT INTO t_articles
+SELECT number, CONCAT('Random text number ', number)
+FROM numbers(995);
+
+-- 插入 5 行带有目标关键字的行
+INSERT INTO t_articles VALUES
+    (1001, 'The silence was deep and complete'),
+    (1002, 'They walked in silence through the woods'),
+    (1003, 'Silence fell over the room'),
+    (1004, 'A moment of silence was observed'),
+    (1005, 'In silence, they understood each other');
+```
+
+现在使用 `LIKE '%silence%'` 模式运行查询。这是 Ngram 索引变得有用的地方：
+
+```sql
+EXPLAIN SELECT id, content FROM t_articles WHERE content LIKE '%silence%';
+```
+
+在 `EXPLAIN` 输出中，在 `pruning stats` 行中查找 `bloom pruning` 详细信息：
+
+```sql
+-[ EXPLAIN ]-----------------------------------
+TableScan
+├── table: default.default.t_articles
+├── output columns: [id (#0), content (#1)]
+├── read rows: 5
+├── read size: < 1 KiB
+├── partitions total: 2
+├── partitions scanned: 1
+├── pruning stats: [segments: <range pruning: 2 to 2>, blocks: <range pruning: 2 to 2, bloom pruning: 2 to 1>]
+├── push downs: [filters: [is_true(like(t_articles.content (#1), '%silence%'))], limit: NONE]
+└── estimated rows: 15.62
+```
+
+这里，`bloom pruning: 2 to 1` 表明 Ngram 索引在扫描之前成功过滤掉了两个数据块中的一个。
diff --git a/docs/cn/sql-reference/00-sql-reference/31-system-tables/system-indexes.md b/docs/cn/sql-reference/00-sql-reference/31-system-tables/system-indexes.md
@@ -6,9 +6,9 @@ import FunctionDescription from '@site/src/components/FunctionDescription';
 
 <FunctionDescription description="Introduced: v1.1.50"/>
 
-包含有关已创建的聚合索引的信息。
+包含有关已创建索引的信息。
 
-另请参阅：[SHOW INDEXES](../../10-sql-commands/00-ddl/07-aggregating-index/show-indexes.md)
+另请参阅：[SHOW INDEXES](../../10-sql-commands/50-administration-cmds/show-indexes.md)
 
 ```sql
 CREATE TABLE t1(a int,b int);
diff --git a/docs/cn/sql-reference/10-sql-commands/00-ddl/07-ngram-index/create-ngram-index.md b/docs/cn/sql-reference/10-sql-commands/00-ddl/07-ngram-index/create-ngram-index.md
@@ -0,0 +1,109 @@
+---
+title: CREATE NGRAM INDEX
+sidebar_position: 1
+---
+
+import FunctionDescription from '@site/src/components/FunctionDescription';
+
+<FunctionDescription description="Introduced or updated: v1.2.726"/>
+
+import EEFeature from '@site/src/components/EEFeature';
+
+<EEFeature featureName='NGRAM INDEX'/>
+
+为表的一个或多个列创建 Ngram 索引。
+
+## 语法
+
+```sql
+-- 在现有表上创建 Ngram 索引
+CREATE [OR REPLACE] NGRAM INDEX [IF NOT EXISTS] <index_name>
+ON [<database>.]<table_name>(<column1> [, <column2>, ...])
+[gram_size = <number>] [bitmap_size = <number>]
+
+-- 创建表时创建 Ngram 索引
+CREATE [OR REPLACE] TABLE <table_name> (
+    <column_definitions>,
+    NGRAM INDEX <index_name> (<column1> [, <column2>, ...])
+        [gram_size = <number>] [bitmap_size = <number>]
+)...
+```
+
+- `gram_size` (默认为 3) 指定索引列文本时，每个基于字符的子字符串（n-gram）的长度。例如，当 `gram_size = 3` 时，文本 "hello world" 将被分割成如下重叠的子字符串：
+
+  ```text
+  "hel", "ell", "llo", "lo ", "o w", " wo", "wor", "orl", "rld"
+  ```
+
+- `bloom_size` 指定 Bloom filter 位图的大小（以字节为单位），用于加速每个数据块中的字符串匹配。它控制索引准确性和内存使用之间的权衡：
+
+  - 较大的 `bloom_size` 减少了字符串查找中的误报，从而提高了查询精度，但代价是需要更多的内存。
+  - 较小的 `bloom_size` 节省了内存，但可能会增加误报。
+  - 如果未显式设置，则默认值为每个索引列每个块 1,048,576 字节（1m）。有效范围为 512 字节到 10,485,760 字节（10m）。
+
+## 示例
+
+以下示例创建了一个表 `amazon_reviews_ngram`，并在 `review_body` 列上创建了一个 Ngram 索引。该索引配置了 `gram_size` 为 10 和 `bitmap_size` 为 2 MB，以优化大型文本字段（如用户评论）上的模糊搜索性能。
+
+```sql
+CREATE OR REPLACE TABLE amazon_reviews_ngram (
+    review_date   int(11) NULL,
+    marketplace   varchar(20) NULL,
+    customer_id   bigint(20) NULL,
+    review_id   varchar(40) NULL,
+    product_id   varchar(10) NULL,
+    product_parent   bigint(20) NULL,
+    product_title   varchar(500) NULL,
+    product_category   varchar(50) NULL,
+    star_rating   smallint(6) NULL,
+    helpful_votes   int(11) NULL,
+    total_votes   int(11) NULL,
+    vine   boolean NULL,
+    verified_purchase   boolean NULL,
+    review_headline   varchar(500) NULL,
+    review_body   string NULL,
+    NGRAM INDEX idx1 (review_body) gram_size = 10 bloom_size = 2097152
+) Engine = Fuse bloom_index_columns='review_body';
+```
+
+要显示创建的索引，请使用 [SHOW INDEXES](../../50-administration-cmds/show-indexes.md) 命令：
+
+```sql
+SHOW INDEXES;
+```
+
+```sql
+┌──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
+│  name  │  type  │ original │                              definition                              │         created_on         │      updated_on     │
+├────────┼────────┼──────────┼──────────────────────────────────────────────────────────────────────┼────────────────────────────┼─────────────────────┤
+│ idx1   │ NGRAM  │          │ amazon_reviews_ngram(review_body)bloom_size='2097152' gram_size='10' │ 2025-05-13 01:22:34.123927 │ NULL                │
+└──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘
+```
+
+或者，您可以先创建表，然后在 `review_body` 列上创建 Ngram 索引：
+
+```sql
+CREATE TABLE amazon_reviews_ngram (
+    review_date   int(11) NULL,
+    marketplace   varchar(20) NULL,
+    customer_id   bigint(20) NULL,
+    review_id   varchar(40) NULL,
+    product_id   varchar(10) NULL,
+    product_parent   bigint(20) NULL,
+    product_title   varchar(500) NULL,
+    product_category   varchar(50) NULL,
+    star_rating   smallint(6) NULL,
+    helpful_votes   int(11) NULL,
+    total_votes   int(11) NULL,
+    vine   boolean NULL,
+    verified_purchase   boolean NULL,
+    review_headline   varchar(500) NULL,
+    review_body   string NULL
+);
+```
+
+```sql
+CREATE NGRAM INDEX idx1
+ON amazon_reviews_ngram(review_body)
+gram_size = 10 bloom_size = 2097152;
+```
diff --git a/docs/cn/sql-reference/10-sql-commands/00-ddl/07-ngram-index/drop-ngram-index.md b/docs/cn/sql-reference/10-sql-commands/00-ddl/07-ngram-index/drop-ngram-index.md
@@ -0,0 +1,29 @@
+---
+title: DROP NGRAM INDEX
+sidebar_position: 4
+---
+
+import FunctionDescription from '@site/src/components/FunctionDescription';
+
+<FunctionDescription description="Introduced or updated: v1.2.726"/>
+
+import EEFeature from '@site/src/components/EEFeature';
+
+<EEFeature featureName='NGRAM INDEX'/>
+
+从表中删除现有的 NGRAM 索引。
+
+## 语法
+
+```sql
+DROP NGRAM INDEX [IF EXISTS] <index_name>
+ON [<database>.]<table_name>;
+```
+
+## 示例
+
+以下示例从 `amazon_reviews_ngram` 表中删除 `idx1` 索引：
+
+```sql
+DROP NGRAM INDEX idx1 ON amazon_reviews_ngram;
+```
diff --git a/docs/cn/sql-reference/10-sql-commands/00-ddl/07-ngram-index/index.md b/docs/cn/sql-reference/10-sql-commands/00-ddl/07-ngram-index/index.md
@@ -0,0 +1,11 @@
+---
+title: NGRAM INDEX
+---
+import IndexOverviewList from '@site/src/components/IndexOverviewList';
+import EEFeature from '@site/src/components/EEFeature';
+
+<EEFeature featureName='NGRAM INDEX'/>
+
+本页提供了 Databend 中 Ngram 索引相关命令的参考信息。
+
+<IndexOverviewList />
diff --git a/docs/cn/sql-reference/10-sql-commands/50-administration-cmds/show-indexes.md b/docs/cn/sql-reference/10-sql-commands/50-administration-cmds/show-indexes.md
@@ -0,0 +1,34 @@
+---
+title: SHOW INDEXES
+sidebar_position: 3
+---
+import FunctionDescription from '@site/src/components/FunctionDescription';
+
+<FunctionDescription description="Introduced or updated: v1.2.190"/>
+
+显示已创建的索引。等效于 `SELECT * FROM system.indexes`。
+
+另请参阅：[system.indexes](../../00-sql-reference/31-system-tables/system-indexes.md)
+
+## 语法
+
+```sql
+SHOW INDEXES [LIKE '<pattern>' | WHERE <expr>] | [LIMIT <limit>]
+```
+
+## 示例
+
+```sql
+CREATE TABLE t1(a int,b int);
+
+CREATE AGGREGATING INDEX agg_idx AS SELECT avg(a), abs(sum(b)), abs(b) AS bs FROM t1 GROUP BY bs;
+
+SHOW INDEXES;
+
+
+┌──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
+│   name  │     type    │                               original                               │                                     definition                                     │         created_on         │      updated_on     │
+├─────────┼─────────────┼──────────────────────────────────────────────────────────────────────┼────────────────────────────────────────────────────────────────────────────────────┼────────────────────────────┼─────────────────────┤
+│ agg_idx │ AGGREGATING │ SELECT avg(a), abs(sum(b)), abs(b) AS bs FROM default.t1 GROUP BY bs │ SELECT abs(b) AS bs, COUNT(), COUNT(a), SUM(a), SUM(b) FROM default.t1 GROUP BY bs │ 2024-01-29 07:15:34.856234 │ NULL                │
+└──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘
+```