对于查询意图的自动分类,在前期也介绍过一篇,通过的是点击的分布和锚文本的分布信息来判断。今天读了一篇清华的论文,在国外引用都是非常多的,因为对于日志类的资源利用,貌似这个的效果(P和R)都是最好的。这个论文的题目是《Automatic Query Type Identification Based on Click Through Information》,作者是Yinqun Liu, Min Zhang等,来自清华大学。
摘要
本论文将要介绍一种更加有效地通过点击信息分布的查询意图分类的方法。首先从大量的日志中分析了为什么可以用点击信息分布,以及锚文本信息为什么不是很有效。最后提出了两个新的特征来识别用户查询。结果显示,这两个特征表现良好。
日志分析
使用的日志来自于sogou。一个很重要的观点是我们要想利用点击信息,只有当新的查询在过去的日志中有记录。论文对一个月的搜索日志进行了统计,发现每一天新来的查询占整个查询的比例,结果发现低于10%。所以用点击信息分布来识别意图是有效和可行的。用锚文本的分布来识别导航类在以前说过,通过对日志的分析发现,低于20%的查询能够使用锚文本信息,比例太小了,所以需要一种新的方法来识别。
查询类别识别
论文提出了两个新的特征:n clicks satisfied( nCS )和top n results satisfied ( nRS )。
nCS:基于这样一个假设:当用户想找到一个导航类的查询时,通常趋向于点击很小数目的URL,简称为“最小付出假设”。通过最大似然估计,nCS( q ) = ( 包含q的session并且点击小于n ) / ( 包含q的查询 )。通过对于日志的分析,发现70%的查询中,导航类的nCS都大于其他两个类的总和。
nRS:基于这样一个假设:当用户相找到一个导航类的查询时,通常只会点击前n个查询中的少数查询。nRS( q ) = ( 包含q的session并且点击只存在前n个结果中 ) / ( 包含q的session )。结果显示80%的导航类查询的nRS都大于其他两个类。
决策树:有了这两个标准,另外加上一个点击分布,就可以用决策树的方法来进行分类。在训练是用了C4。5算法来组合这3个特征,最有效的特征时nRS。
结果
首先时信息/事务类的查询集合和导航类查询集合的构造。前者仍然是在搜索日志中进行寻找,后者是根据hao123上面的分类目录来构造的。最后的结果表面,该算法对于分类F能够超过80%。在训练集和测试集中表现都比单纯的基于点击分布的效果好。
这篇论文在综述性的文章中都被反复的提到,足见它的重要性。最关键的是他很简单,而且结果很好。
本文介绍了一种基于点击信息分布的查询意图自动分类方法。该方法由清华大学的研究团队提出,利用点击信息分布和两个新特征(nCS和nRS)进行分类。实验证明,该方法能有效地区分导航类查询与其他类型查询。
7449

被折叠的 条评论
为什么被折叠?



