文章目录
前言
说明:本文章使用的ES版本是:6.2.4
在上一篇文章Elasticsearch源码解读四:搜索过程详解中,介绍了ES的搜索过程。
接下来我们具体的看一下ES搜索时,是如何计算文档相关性得分并用于排序的。
TF-IDF
在介绍ES计算文档得分之前,先来看一下TF-IDF
算法。
TF-IDF
(Term Frequency–Inverse Document Frequency)是一种用于信息检索与文本挖掘的常用加权算法。它是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF算法原理
TF-IDF
实际上是两个算法TF
和IDF
的乘积。