替代方案排序函数的半监督与主动学习方法
1. 引言
学习排序是过去十年迅速兴起的一个相对较新的研究领域,在信息检索(IR)中起着关键作用。其过程是为每个文档特征分配权重以学习排序函数,再用该函数估计文档的相关性得分,最后根据得分对文档进行排序。由于在诸如信息检索等实际问题中的广泛应用,这一过程在学习领域备受关注。
在学习排序中,训练集中标记示例的数量会显著影响排序模型的性能。标记大量示例需要耗费大量人力资源且耗时,尤其对于排序问题而言。因此,半监督学习方法应运而生,该方法利用少量标记实例和大量未标记实例构建模型。半监督学习是一种常用策略,通过特定技术标记未标记数据,从而增加标记训练数据的数量。
排序是许多信息检索应用的核心问题,旨在对预定义的标记实例集进行排序或建立偏好关系。例如在文档检索中,目标是根据用户查询对文档集合进行排序,这种问题被称为替代方案排序。此外,实例排序也是信息检索中的一种排序类型,如路由信息排序。
由于获取训练数据的标记示例成本高且耗时,因此将未标记数据纳入训练集是更好的选择。大多数半监督排序算法是基于图的转导技术,但这些技术难以扩展到标记和未标记训练数据之外的新测试点。归纳法最近受到了越来越多的关注。
为了在大型数据集上有效应用半监督学习,我们提出了一种基于监督RankBoost算法的改进方法,可应用于部分标记的替代方案数据,如网页搜索。我们的算法基于成对方法,将查询 - 文档对作为学习实例。我们的贡献在于开发了两种替代方案排序函数的方法:半监督排序算法和主动学习方法。这两种算法具有归纳特性,能够对未用于训练的新示例进行排序。未标记数据将首先通过转导方法(如K近邻算法)进行标记。
超级会员免费看
订阅专栏 解锁全文

23

被折叠的 条评论
为什么被折叠?



