WSDM 2017精选论文解读

最新推荐文章于 2024-06-05 10:14:28 发布

原创

最新推荐文章于 2024-06-05 10:14:28 发布 · 2.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #机器学习 #WSDM

本文精选了WSDM 2017会议中的五篇代表性论文，包括Unbiased Learning-to-Rank、实时竞价的强化学习应用、敏感的A/B测试指标学习、循环推荐网络以及个性化搜索的学习方法。这些论文涵盖了数据挖掘、机器学习和在线广告等多个领域，为读者提供了深入理解这些技术的指导。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者： 洪亮劼，Etsy数据科学主管，前雅虎研究院高级经理。长期从事推荐系统、机器学习和人工智能的研究工作，在国际顶级会议上发表论文20余篇，长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。
责编：何永灿，欢迎人工智能领域技术投稿、约稿、给文章纠错，请发送邮件至heyc@youkuaiyun.com
本文为《程序员》原创文章，未经允许不得转载，更多精彩文章请订阅《程序员》

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文，即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下，选择精读哪些论文，学习哪些热门技术就成为了AI学者和从业人员所头痛的问题。这个栏目就是要帮助大家筛选出有意思的论文，解读出论文的核心思想，为精读提供阅读指导。

数据挖掘和机器学习应用的顶级会议The Tenth ACM International Conference on Web Search and Data Mining （WSDM 2017）今年2月已经在英国剑桥圆满举行。正值WSDM十周年，会议上对WSDM的发展进行了回顾和展望。纵观过去十年的发展，WSDM已经成长为学术圈和工业界都十分倚重的经典跨界会议。不像KDD、WWW或者SIGIR，WSDM因为从最开始就由不少工业界的学术领导人发起并且长期引领，所以十分重视工业界的学术成果的展现。有不少经典的工业界文章在过去十年里，都是通过WSDM发表的。今年也不例外，因为WSDM的论文涵盖非常广泛的主题，而且一般的读者很难从浩如烟海的文献中即刻抓取到有用信息，这里笔者从80篇会议文章中精选出5篇有代表性的文章，为读者提供思路。

Unbiased Learning-to-Rank with Biased Feedback

概要：这篇文章获得了WSDM 2017最佳论文。在实际生产中，我们大量获得的是 “有偏差”（Biased）的数据。那么，如何从这些 “有偏差”的数据中，进行“无偏差”（Unbiased）的机器学习就成为了过去很长一段时间以来，实际生产中非常急迫解决的问题。本文探讨了解决这个问题的一种思路。

这篇文章来自康奈尔大学的Thorsten Joachims以及他的学生。Thorsten在上一个十年的学术研究中，因为开发SVMLight而名声显赫。他也是最早思考如何利用用户反馈数据进行排序模型（Ranking Model）训练的学者。那么，这篇获奖论文主要是要解决一个什么样的问题？其实，这篇文章要尝试解决的问题在学术和工业界的应用中非常普遍，可以说是一个困扰学者和普通的工程人员已久的问题。那就是，如何从“有偏差”用户反馈数据中，训练“无偏差”的排序模型。为什么用户反馈数据会“有偏差”？道理很简单，用户在和系统交互的时候，受到各方面因素