第11章 如何确定网页和查询的相关性
-
几个概念:
- 关键词的频率/单文本词频(Term Frequency,TF):关键词次数除以网页的总字数。
- 停止词(Stop Word):度量时不需要考虑的词。例如中文的“的,和,中”等。
- 逆文本频率指数(Inverse Document Frequency,IDF):IDF=log(D/Dw)IDF=log(D/D_{w})IDF=log(D/Dw) ,其中DDD是全部网页数,而DwD_{w}Dw是关键词出现过的网页数。作为每个搜索关键词的权重。(例如“原子能的应用”中,“原子能”的权重需要更高,而“的”以及“应用”的权重应该更低。假定所有网页数量D=100D=100D=100,而“的”在所有网页中都出现,那么他的IDF=log(100/100)=0IDF=log(100/100)=0IDF=log(100/100)=0,而假设“原子能”出现次数为20,那么它的权重就是IDF=log(100/20)=0.6989IDF=log(100/20)=0.6989IDF=log(100/20)=0.6989)
- 所谓的IDF,其实就是给定一个特殊条件下关键词的概率分布的交叉熵。
-
相关性计算公式变为:TF-IDF