IR是什么
粗略的理解就是在海量的信息中抓取有用的那几个,最常见的应用就是搜索引擎。百度存有千亿级别的网页,而根据用户的query需要在第一页给出最符合要求的那些。
这个领域中目前的方法可以分为两类:implicit & explicit。前者主要关注于在一堆文档中进行分类,后者关注于query的信息。当然还有hybrid的一些研究方法。
在优化返回给用户的信息时,由于query通常有着不确定性,比如我搜索"apple",有可能是想卖个肾,也可能是想吃点水果。这个时候理想的返回结果应该将二者都囊括进来。这就是今天提的多样化任务。
Metrics
- α − D C G \alpha-DCG α−DCG

对于一个已经排好的序列与qeury,首先把query分为m个可能的sub-topic,类似苹果公司与水果苹果。有n个网页根据某种算法排了个序, r i r_i ri指第i篇文档的排名(rank), y i l y_{il} yil表示第i篇网页是否涵盖了第l个sub-topic, c i l c_{il} cil表示排名靠前的文档中有多少对sub-topic l已经覆盖到了,

信息检索(IR)旨在从海量数据中找到相关结果,面对query的不确定性,多样化任务至关重要。本文讨论了多样化评估指标α-DCG和ERR-IA,指出它们存在的问题——无法直接用于深度学习模型优化。通过sigmoid函数近似离散变量,实现了metrics的连续化。最后,提出基于Gumbel分布的随机化损失函数,适用于多query场景的深度学习优化。
最低0.47元/天 解锁文章
1203

被折叠的 条评论
为什么被折叠?



