六 多shard场景下relevance score不准确原因

shard中只有一部分的document,默认情况下,IDF是在shard本地计算的。

 

在一个shard中,有多个title中包含Java的document,比如10个。当一个搜索title中包含Java当请求到这个shard到时候,会使用TD/IDF算法:

1. 在一个document到title中,Java出现到次数。

2. 在所有document的title中,Java出现的次数---10次。

3. 这个document的title的长度。

在另外一个shard中,只有1个document title中包含Java,此时计算shard local IDF分数就会很高,相关度很高。

 

也许相关度很高的doc排在六后面,分数不高,而相关度很低的doc排在六前面,分数很高。

 

解决方案:

数据量很大的话,其实一般情况下,在概率学的背景下,es都是在多个shard中均匀路由数据的,路由的时候根据_id,负载均衡
比如说有10个document,title都包含java,一共有5个shard,那么在概率学的背景下,如果负载均衡的话,其实每个shard都应该有2个doc,title包含java
如果说数据分布均匀的话,其实就没有刚才说的那个问题了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值