query term weight计算

最新推荐文章于 2024-07-22 08:53:18 发布

原创最新推荐文章于 2024-07-22 08:53:18 发布 · 9.7k 阅读

7 ·

CC 4.0 BY-SA版权

搜索引擎同时被 2 个专栏收录

11 篇文章

订阅专栏

自然语言处理

5 篇文章

订阅专栏

对query分词后，我们需要对计算query中各个term的权重。Term weighting在文本检索，文本相关性，核心词提取等任务中都有重要作用。
举例来说：“荷尔蒙是什么？”如果分词之后直接进行搜索，可能出来的效果并不是很理想，在不能完全匹配的情况下，”什么“ ”是“ 这样的term对query结果干扰很大。
我们人工进行分析，term weighting结果可能是: “什么 0.1，是0.1，荷尔蒙0.8”。

term weight计算方法

1.计算tf-idf-最常见的计算term weight的方法
a.词w在文档d中的词频tf (Term Frequency)，即词w在文档d中出现次数count(w, d)和文档d中总词数size(d)的比值：
tf(w,d) = count(w, d) / size(d)
b.词w在整个文档集合中的逆向文档频率idf (Inverse Document Frequency)，即文档总数n与词w所出现文件数docs(w, D)比值的对数:
idf = log(n / docs(w, D))
计算tf-idf是一种相对笨重的方法，但是很实用。

2.特定环境下的term weight计算
a.从搜索session数据里提取数据，用户在一个session中的大致意图是不会变的，提取出核心意图所对应的term，其重要性就高。
b.分析点击次数比较多的doc，分析其中的title部分数据。点击的次数越多，相对应的title中包含的核心term权重越大。
c.在应用分发数据中，某些app的名字，可以根据其下载次数，决定其term的重要性程度。

3.基于上面的策略,我们可以通过LR预测query term weight
特征分析：
term本身：term专名类型，term词性，term idf，位置特征，term的长度
term与term：共现度，是否逆序，term分类，term与文本串中其他term的字面交叉特征

term weight中检索注意的地方：
term的检索省略：某些term在好结果的页面中并未出现，同时也没有被标记为retrieval optional，从而造成好结果无法retrieve回来。
term的算分省略：需要对部分无意义的term做ranking optional，打分时才能使分数更为合理。
term重要性：不能丢失的重要term，虽然在文中出现，但并不相关。