作者: 洪亮劼,Etsy数据科学主管,前雅虎研究院高级经理。长期从事推荐系统、机器学习和人工智能的研究工作,在国际顶级会议上发表论文20余篇,长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。
责编:何永灿,欢迎人工智能领域技术投稿、约稿、给文章纠错,请发送邮件至heyc@youkuaiyun.com
本文为《程序员》原创文章,未经允许不得转载,更多精彩文章请订阅《程序员》
人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读哪些论文,学习哪些热门技术就成为了AI学者和从业人员所头痛的问题。这个栏目就是要帮助大家筛选出有意思的论文,解读出论文的核心思想,为精读提供阅读指导。
数据挖掘和机器学习应用的顶级会议The Tenth ACM International Conference on Web Search and Data Mining (WSDM 2017)今年2月已经在英国剑桥圆满举行。正值WSDM十周年,会议上对WSDM的发展进行了回顾和展望。纵观过去十年的发展,WSDM已经成长为学术圈和工业界都十分倚重的经典跨界会议。不像KDD、WWW或者SIGIR,WSDM因为从最开始就由不少工业界的学术领导人发起并且长期引领,所以十分重视工业界的学术成果的展现。有不少经典的工业界文章在过去十年里,都是通过WSDM发表的。今年也不例外,因为WSDM的论文涵盖非常广泛的主题,而且一般的读者很难从浩如烟海的文献中即刻抓取到有用信息,这里笔者从80篇会议文章中精选出5篇有代表性的文章,为读者提供思路。
Unbiased Learning-to-Rank with Biased Feedback
概要:这篇文章获得了WSDM 2017最佳论文。在实际生产中,我们大量获得的是 “有偏差”(Biased)的数据。那么,如何从这些 “有偏差”的数据中,进行“无偏差”(Unbiased)的机器学习就成为了过去很长一段时间以来,实际生产中非常急迫解决的问题。本文探讨了解决这个问题的一种思路。
这篇文章来自康奈尔大学的Thorsten Joachims以及他的学生。Thorsten在上一个十年的学术研究中,因为开发SVMLight而名声显赫。他也是最早思考如何利用用户反馈数据进行排序模型(Ranking Model)训练的学者。那么,这篇获奖论文主要是要解决一个什么样的问题?其实,这篇文章要尝试解决的问题在学术和工业界的应用中非常普遍,可以说是一个困扰学者和普通的工程人员已久的问题。那就是,如何从“有偏差”用户反馈数据中,训练“无偏差”的排序模型。为什么用户反馈数据会“有偏差”?道理很简单,用户在和系统交互的时候,受到各方面因素