Intentions:A Game for Classifying Search Query Intent

最新推荐文章于 2025-04-29 10:04:43 发布

killtayoto

最新推荐文章于 2025-04-29 10:04:43 发布

阅读量908

点赞数

分类专栏：查询意图分类文章标签： search query 游戏搜索引擎算法体育

本文链接：https://blog.youkuaiyun.com/killtayoto/article/details/6003010

版权

查询意图分类专栏收录该内容

26 篇文章

订阅专栏

其实在所有的论文中，不管是前期的还是后期的论文，都有一个非常关键的步骤是：人工标注。综述里面也说到，现在查询意图分类里面有一个很大的难点就在于没有一个很权威很大的意图标注语料。这其实就是一个很大的问题，因为没有这部分数据，第一在有监督的方法中，没有训练集；第二，分类算法的评测阶段没有测试集。所以这是一个很大的问题，今天看到一个很牛的论文，题目是《Intentions:A Game for Classifying Search Query Intent》，翻译过来就是《Intentions:一个查询意图分类的游戏》。题目就很吸引人，将人工标注这个阶段设计成游戏，来提供更多的标注语料。这里可以想到当年的Google的ESP游戏，非常有创意的想法。

摘要

有监督的方法中，一个难点就是需要大量的标注数据，但是人工的搜集是非常的耗时的。Human Computing，不知道是否有了解。如果不了解可以看看“人脑计算”，里面详细讲解了人脑计算的一些应用。本论文就是要利用人脑计算来设计一个游戏叫做“Intentions”，它的目的就是搜集隐藏在查询后面的意图的数据。

介绍

按照Broder的分类，有导航类、信息类和事务类，而且通过大量的日志分析，有80%的查询都是信息类。信息类更加的复杂，并且可能加入更多的复杂自然语言的因素在里面。这就使意图识别算法在搜索引擎里面更有作用。

意图到查询：相反的问题

在信息类里面，一个查询的意图很多时候是模糊的。相比较于给定一个查询让用户标记意图，我们考虑一个相反的过程：给定一个特别的意图，我们向用户询问满足这个意图的查询。

Intentions：游戏的机制

这是一个多人游戏，最终的目的是对每一个给定的意图，搜集到一个满足这个意图的查询集合。对于两个匿名玩儿家，游戏随机分别给他们一个意图，这个可能相同，也可能不同。每个玩儿家然后根据这个意图向搜索引擎输入一些查询来满足这个意图。两个玩儿家的搜索结果都将展示给双方看，每个玩儿家接下来就需要根据所看到的对方的结果判断他们两个被分配的是否是相同的意图。如果两个猜测正确，他们都将得分，否则没有分。

提供了两种表达意图的方式，一种是显式的文本问题。另一个是给每个玩儿家提供Live Search instant answer，也就是对一些信息需求的简介的结果，这个还没有实现出来。

使Input-Agreement模糊化

Input-Agreement机制在很多的Human computing都有使用，简单来说就是对于两个给定的玩儿家，每个玩儿家各自得到一个东西，然后他们分别进行描述，每个玩儿家根据对方的描述来回答他们是否得到了同一个东西。本游戏在设计的时候大体也是这个机制，但是这就引入了两个问题：1），为了赢，两个玩儿家可以通过欺骗都输入提出的问题即可，这样我们得到的数据就没有任何意义；2）如果知道了对方的输出，通常猜出原来的东西变得很容易。对于第二点，比如你的查询是“Michael Jackson birth data”，他的查询是“Date of birth Michael Jackson”，那么原来的意图是“When was Michael Jackson born?”被猜出来的几率就很大了。

为了解决这两个问题，我们引入了两个很重要的改变。第一，将出题（意图）进行变换，这样的话即使两个玩儿家输入的是一样的，那么结果也不一样，并且最终的判断是否一样也有一定的价值。第二，输出（查询）进行转换。这就要求玩儿家玩儿一个更加难的问题：必须猜出对方玩儿家的查询。所以我们提供的就不是对方玩儿家的直接的查询了，而是提供的是这个查询在同一个搜索引擎中查询的结果。这样，就形成了最开始所描述的游戏规则。两个转换：相同意图的不同表述方式的转换、两个玩儿家的答案的转换。

选择合适的意图问题

这个游戏的输入是意图，所以如何选择意图问题显得很重要。首先建立一个类别体系，比如“体育”、“音乐”等，然后对于每个类别，都建立一个问题末班。比如"what is the price of <drug>?","how much does <drug> cost?"。构造不同的，但是很容易区分的问题对，采用的方法是：1）类别不一样，2）相同的类别，但是讨论的不同的实体。比如说药里面，就可以讨论“感冒药”或者“伟哥”。选择不同的而且不容易区分的问题的一个方法就是选择主题相同的，描述的也是同一个实体，但是描述的不同的方面。这样对问题就形成了一个难易的等级，根据用户回答问题的错误率，就可以选择不同等级的问题了。

这个论文引入了Human computing的方法，来将意图标注数据的过程变为了一个游戏过程。在设计的过程中，通过对遇到的问题进行分析和解决，得到了一个比较好的标注方法。