ElasticSearch(八)-排序(相关性算法)

本文介绍Elasticsearch中的排序方法,包括日期和字符串排序,并详细解释了相关性评分的计算原理及其影响因素,如TF/IDF、词频和文档频等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.排序

  Sort排序,如果是date,会转化成毫秒数;

  如果强制计算其相关性,可以设置track_scores为true

  默认排序:字段默认顺序排序,_score默认倒序

  GET /_search?sort=date:desc&sort=_score&q=search 
  "sort": {
    "dates": {
        "order": "asc",
        "mode":  "min"//默认的模式
    }
}
 
2.字符串排序
  多值字段:一个字段在ES中可能有多个含义;即可以使用多个分析器进行分词和排序;
            可以设置一个字段既可以被搜索,又可以分组统计或排序
index设为annlyzed的字段排序将会耗费大量内存,因为分词之后统计可想而知;

 

3.相关性简介

  相关性评分越高,_score越大,应该反过来;

  评分的计算方式根据不同的查询类型,不同的查询语句决定:

  Fuzzy查询会计算与关键词的拼写相似度;

  Terms查询会计算找到的内容与关键词组成部分匹配的百分比;

  相似度算法:TF/IDF;检索词频率/反向文档频率

(1)检索词频率:检索词在该字段出现的频率越高相关性越高

(2)反向文档频率:每个检索词在索引中出现的频率;频率越高,相关性越低。这是检测检索词在文档中的重要性;

(3)字段长度准则:字段长度越长,相关性越低。

 
 理解评分标准
   可以使用explain参数查看评分细节,但是生产环境不要用,代价太大,仅供调试;
   从中可知:1.词频率和文档频率都是每个分片计算出来的,不是索引
             2._explaination包含的入口,采用的那种模式,计算的结果详情
 
4.字段数据
   为了提高排序效率,ES会将所有的字段加载到内存,叫做数据字段。
 
本文出处:http://blog.youkuaiyun.com/shan1369678/article/details/51455171
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值