文本检索的半监督图排序方法
1. 引言
排序是信息检索的关键问题,它根据文档与用户查询的相关性对从大量语料库中搜索到的候选文档进行排序。目前,相关研究大致可分为两类:
- 无监督排序 :利用网页间的链接关系构建图,如PageRank或HITS算法。基于链接关系图,网页的影响力可通过图的路径传播,最终从稳定图中获取排名分数。不过,由于文档间的链接关系难以获取,无监督排序无法直接用于文本检索。
- 监督排序(学习排序) :通过学习带标签的查询 - 文档对来训练排序模型,如Ranking SVM或Prank。近年来,学习排序受到了广泛关注,例如Cao和Xu等人提出了对不同位置错误给予不同惩罚的成本敏感Ranking SVM,Xu和Li则通过Boosting方法直接优化排序性能度量。
然而,监督排序需要大量带标签的查询 - 文档对,人工标注成本高、难度大且耗时,而大量未标记数据则相对容易获取。因此,文本检索的半监督排序值得深入研究。为解决上述问题,本文提出了一种新颖的半监督图排序(SSG - Rank)方法,该方法利用带标签的文档对重新加权亲和矩阵,增强同一类文档间的相似性,从而更精确、高效地传播排序分数。
2. 半监督图排序
文本检索面临标记实例不足的问题,标记文档成本高、难度大且耗时,而未标记数据相对容易收集。目前,半监督学习的主要研究集中在分类和回归领域,如Blum和Mitchell的协同训练方法、Joachims将SVM应用于半监督分类等。但针对文本检索的半监督排序方法较少。为解决这些问题,本文通过基于带标签文档对重新加权亲和图,提出了一种新颖的半监督图排序算法
半监督图排序在文本检索中的应用
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



