【Elasticsearch】Token Graphs

Elasticsearch 的Token Graphs是一种用于处理文本分析的高级功能,主要用于处理多词同义词、短语匹配等复杂场景。以下是关于 Token Graphs 的详细解释:

1.什么是 Token Graphs

Token Graphs 是一种有向无环图(DAG),用于表示文本流中的标记(tokens)及其位置关系。在 Token Graph 中:

• 每个位置(position)表示一个节点(node)。

• 每个标记(token)表示一条边(edge),指向下一个位置。

2.标记的位置和长度

在 Token Graph 中,每个标记都有两个重要属性:

• 位置(Position):标记在流中的位置。

• 位置长度(Position Length):标记跨越的位置数量。

例如,对于短语“domain name system”,其标记图可能如下:

• `domain`的位置为 0,位置长度为 1。

• `name`的位置为 1,位置长度为 1。

• `system`的位置为 2,位置长度为 1。

如果添加了同义词`dns`,则`dns`的位置为 0,位置长度为 3。

3.多位置标记

某些标记过滤器(如`synonym_graph`和`word_delimiter_graph`)可以生成跨越多个位置的标记。例如:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值