Learning to Rank: From Pairwise Approach to Listwise Approach论文笔记

最新推荐文章于 2024-11-25 00:29:56 发布

原创

最新推荐文章于 2024-11-25 00:29:56 发布 · 990 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #算法 #人工智能 #排序

本文探讨了学习排序算法从pairwise方法进化到listwise方法的过程。原先的pairwise方法虽然直观，但在训练数据不平衡等问题上表现不佳。listwise方法通过引入概率模型，将排序问题转化为分布拟合问题，显著提升了学习效率和排序质量。

【ICML2007】Learning to Rank: From Pairwise Approach to Listwise Approach

原文链接

在这里插入图片描述

Abstract

学习排序多用于文件检索，collaborative filtering.以前学习排序的方法将object pairs作为instance，这里将ranking定为数据序列的预测任务，把list of objects当作instance，引入两个概率模型，排列概率和顶一概率，定义了列表损失函数进行学习。

intro

每个query对应一个score降序的最优排列（例如点击率），目标就是定义一个ranking function给document评分，达到近似的效果。

之前方法是用classification的思想解决的，从ranking list收集文档对，计算文档对的相关程度标签，进行分类。pairwise方法有以下优点：（1）现存有很多方法可以直接用（2）特定场景下pairwise feature很容易获得。

但也有以下缺点：（1）其学习的目标是最小化文档对的分类错误，而不是最小化文档排序的错误。学习目标和实际目标（MAE，NDCG）不符。（2）训练过程可能是极其耗时的，因为生成的文档对样本数量可能会非常多。（3）对于文档对iid的假设太过强。（4）生成的文档对由于query不同而不同，使结果更倾向对应更多文档对的query

本文解决方法：（1）提出listwise方法，在学习中把<query,document list>当作instance，与pointwise把<query,document>作为训练不考虑文档顺序关系，pairwise考虑了同一query的文档相关性排序不同.(2)用概率分布计算listwise损失，引入两个概率模型，排列概率和顶一概率，定义了列表损失函数进行学习。