第11章 如何确定网页和查询的相关性
-
几个概念:
- 关键词的频率/单文本词频(Term Frequency,TF):关键词次数除以网页的总字数。
- 停止词(Stop Word):度量时不需要考虑的词。例如中文的“的,和,中”等。
- 逆文本频率指数(Inverse Document Frequency,IDF):IDF=log(D/Dw)IDF=log(D/D_{w})IDF=log(D/Dw) ,其中DDD是全部网页数,而DwD_{w}Dw是关键词出现过的网页数。作为每个搜索关键词的权重。(例如“原子能的应用”中,“原子能”的权重需要更高,而“的”以及“应用”的权重应该更低。假定所有网页数量D=100D=100D=100,而“的”在所有网页中都出现,那么他的IDF=log(100/100)=0IDF=log(100/100)=0IDF=log(100/100)=0,而假设“原子能”出现次数为20,那么它的权重就是IDF=log(100/20)=0.6989IDF=log(100/20)=0.6989IDF=log(100/20)=0.6989)
- 所谓的IDF,其实就是给定一个特殊条件下关键词的概率分布的交叉熵。
-
相关性计算公式变为:TF-IDF

本文深入探讨了TF-IDF算法,解释了关键词频率(TF)和逆文本频率指数(IDF)的概念,以及它们如何用于衡量网页和查询的相关性。通过具体示例,展示了IDF如何调整关键词权重,使关键主题的词更具影响力。
999

被折叠的 条评论
为什么被折叠?



