【Elasticsearch】Token Graphs

最新推荐文章于 2025-12-02 21:46:06 发布

原创

最新推荐文章于 2025-12-02 21:46:06 发布 · 465 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

Elasticsearch 的Token Graphs是一种用于处理文本分析的高级功能，主要用于处理多词同义词、短语匹配等复杂场景。以下是关于 Token Graphs 的详细解释：

1.什么是 Token Graphs

Token Graphs 是一种有向无环图（DAG），用于表示文本流中的标记（tokens）及其位置关系。在 Token Graph 中：

• 每个位置（position）表示一个节点（node）。

• 每个标记（token）表示一条边（edge），指向下一个位置。

2.标记的位置和长度

在 Token Graph 中，每个标记都有两个重要属性：

• 位置（Position）：标记在流中的位置。

• 位置长度（Position Length）：标记跨越的位置数量。

例如，对于短语“domain name system”，其标记图可能如下：

• `domain`的位置为 0，位置长度为 1。

• `name`的位置为 1，位置长度为 1。

• `system`的位置为 2，位置长度为 1。

如果添加了同义词`dns`，则`dns`的位置为 0，位置长度为 3。

3.多位置标记

某些标记过滤器（如`synonym_graph`和`word_delimiter_graph`）可以生成跨越多个位置的标记。例如：

• 将“automatic teller machine”替换为“atm”。

• 将“domain name system”替换为“dns”。

4.标记图的用途

索引阶段

索引阶段不支持包含多位置标记的 Token Graphs。因此，需要使用`flatten_graph`过滤器将 Token Graph 展平，使其适合索引。

搜索阶段

在搜索阶段，Token Graphs 可以用于生成多个子查询。例如，用户搜索“domain name system is fragile”，Token Graph

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。