知识发现与数据挖掘领域最高荣誉揭秘-优快云博客

某中心学者荣获知识发现与数据挖掘领域"最高荣誉"

本周，在计算机协会知识发现与数据挖掘年度会议（KDD）上，康奈尔大学计算机科学教授、某中心学者Thorsten Joachims获得了该会议的创新奖。组织此次会议的ACM特别兴趣小组SIGKDD将该奖项描述为"知识发现与数据挖掘领域技术卓越的最高荣誉"。

获奖引文肯定了Joachims在"研究信息检索中的人类偏见、支持向量机和结构化输出预测方面的影响力工作"，特别是他"从隐式反馈中提取可靠偏好的方法、无偏学习排序方法以及提供公平性保证的排序方法"。

信息检索中的"人类偏见"问题是什么？

大部分工作涉及从人类行为中学习，特别是在提供排名或推荐的系统中的学习。这些系统提供的一个重要反馈来源是用户是否点击了某个结果、重新制定了查询，并最终消费了某些内容。这提供了大量数据，与训练这些系统的传统方式不同，它不是基于某个专家认为与查询相关的内容，而是真实反映了用户的想法——什么是该查询的正确答案或对他们有帮助的内容。

从这种隐式反馈中学习的问题是系统会偏置人们的行为。排名靠前的内容会比排名靠后的内容获得更多曝光，这也会影响用户能够点击或购买的内容。因此，通过系统采取的行动，它也在污染数据。排名第一的内容获得最多点击，因此它保持在第一位置。这就形成了一个自我强化的循环，这意味着一个相当糟糕的内容可以保持在第一位置，而一个相当好的内容永远不会被发现。

关键问题是如何处理系统引入的偏见？一个普遍的见解是将这些系统视为与人类互动的智能体：它们不仅仅是在收集数据，而是在采取行动，比如做出推荐。我们观察到的是人们如何对这种干预做出反应。

这意味着系统很像医学中的随机对照试验。你给患者一种治疗，观察患者对这种治疗的反应，但你无法看到如果给患者另一种治疗会发生什么。

推荐系统或排名系统也是如此：你看到的是如果你进行特定干预会发生什么——推荐这部电影，用户观看或不观看——但你无法看到如果你推荐了不同的项目会发生什么。我们为推荐系统带来的想法是，从统计角度来看，你希望以与随机对照试验相同的方式对待它们。

在某些方面，这个问题比医学领域更容易。我们获得的数据更多，风险也更小。但在某种意义上也更困难。在医学中，你可能有三种不同的治疗方法，而在推荐系统中，数据库中的每个项目都是一种潜在的治疗方法。我们有数百万个项目，因此处理问题的复杂性和规模是具有挑战性的。

排名第一的内容获得最多点击，因此它保持在第一位置。这就形成了一个自我强化的循环。

有两种方法可以解决这个问题：在线方式和离线方式。在线方式是不断尝试新的干预措施，观察人们的反应，然后逐步调整策略，始终以交互方式运行这些实验。这被称为在线学习，特别是情境赌博在线学习。

在某种意义上，在线学习是浪费的，并且可能对客户产生负面影响，因为你可能多次尝试实际上并不那么好的事情。

但我们已经有 terabytes 的现有数据，我们知道我们在特定情境下为该客户采取了该行动，并且客户很满意。我们能否回收所有这些旧数据并将其用于机器学习，而不是反复尝试？

我们开发的内容之一是这些批量学习方法，你可以将其视为事后从随机对照试验中学习。一旦你有了数据，就问这个问题："如果我能让时间倒流回到数据收集时，最好的策略会是什么？"我认为这些离线算法特别有前景。

是否在获奖引文中提到的"学习排序"环境中使用相同方法？

学习排序是一种特定类型的反馈。情境赌博更像是，你要求Alexa播放音乐，Alexa必须为你播放一些内容。它恰好选择一个动作：播放一首曲目，用户喜欢或不喜欢。排序环境则更宽容一些。你呈现一个项目排名，因此即使你没有抓住顶部项目，如果用户有耐心并向下查看排名，你仍然可以获得反馈。

但如果用户没有点击某个内容，可能有两个原因。一个原因是用户不喜欢它。另一个原因是用户根本没有看到它；用户没有向下滚动足够远以发现该项目。

因此，与情境赌博设置相比，额外的复杂性是你必须理清这种模糊性。我们已经提出了技术，你至少可以在期望中理清这两个原因。尽管你无法对任何单个展示这样做，但你可以说："在期望中，我知道没有看到某个项目导致了那么多缺失的点击，而缺乏相关性导致了其余部分。"因此，来自随机对照试验的类似技术也可以用于解决这个问题。

引文中提到的"结构化输出预测"是什么？

许多机器学习问题被表述为二元分类——预测是或否——或回归问题，你只需预测一个数字——比如5.7之类的。

但对于许多其他问题，你预测的是一个结构化对象。排名是结构化对象的一个例子，你预测的东西是一个组合对象。它是一个排列。

你想要建模这个排名中的依赖关系。例如，如果你有查询"Michael Jordan"，这是模糊的。它可能指篮球运动员；可能指统计学家；可能指演员。

也许篮球运动员是最可能的解释，但仅用关于篮球运动员的链接填充你的前10个结果可能不是正确的事情，因为不是每个人都在寻找那个。

你想要建模依赖关系：如果我放置了关于篮球运动员的第一个链接，接下来放置什么是最好的？也许下一个最受欢迎的意图是演员。你希望将你放入排名中的内容预测为所有这些相互依赖的项目的预测。

这给你带来了这些机器学习问题，其中你预测的东西是这个巨大组合空间中的一个元素，该空间包含文档的所有可能排列，其数量比宇宙中的原子还多。你仍然希望学习这些模型，并且希望高效计算要呈现的最佳排名。

这是一个与某中心相关的问题。它也与许多其他问题相关，比如预测蛋白质的结构。你有序列，并且想要预测它如何折叠。你真的必须建模所有的依赖关系，事物在蛋白质中如何相互作用。

或者它与自然语言处理相关——例如，预测句子的语义解析的组成部分。你需要考虑句子的所有组成部分如何相互关联。因此它确实与许多预测问题相关。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）