六多shard场景下relevance score不准确原因

tianlan996

于 2019-08-28 20:55:53 发布

阅读量248

点赞数

分类专栏： Elasticsearch进阶

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/tianlan996/article/details/100126605

版权

Elasticsearch进阶专栏收录该内容

7 篇文章

订阅专栏

shard中只有一部分的document，默认情况下，IDF是在shard本地计算的。

在一个shard中，有多个title中包含Java的document，比如10个。当一个搜索title中包含Java当请求到这个shard到时候，会使用TD/IDF算法：

1. 在一个document到title中，Java出现到次数。

2. 在所有document的title中，Java出现的次数---10次。

3. 这个document的title的长度。

在另外一个shard中，只有1个document title中包含Java，此时计算shard local IDF分数就会很高，相关度很高。

也许相关度很高的doc排在六后面，分数不高，而相关度很低的doc排在六前面，分数很高。

解决方案：

数据量很大的话，其实一般情况下，在概率学的背景下，es都是在多个shard中均匀路由数据的，路由的时候根据_id，负载均衡
比如说有10个document，title都包含java，一共有5个shard，那么在概率学的背景下，如果负载均衡的话，其实每个shard都应该有2个doc，title包含java
如果说数据分布均匀的话，其实就没有刚才说的那个问题了

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。