文章目录
概述
这篇论文对DRMM模型做了一些改进,提高了模型的效果。
论文参考PACRR模型利用卷积网络提取n-gram匹配信息的做法,融合n-grams和不同方式编码的上下文信息。另外又加了一些新的策略提高模型效果。
实验证明,本文提出的模型优于BM25-baseline,DRMM和PACRR。
主要贡献
因为原始DRMM模型中直方图的构建方式并不是可微的,所以DRMM不支持端到端的训练方式。作者总共提出了以下几种基于DRMM模型的拓展方法:
- PACRR-DRMM:基于n-grams卷积的DRMM模型上下文相关的编码方式
- ABEL-DRMM:基于注意力机制的DRMM模型
- POSIT-DRMM:基于池化的DRMM模型
- 多种编码信息叠加:context sensitive, insensitive, exact matches
作者在BIOASQ生物医药QA问答集 (Tsatsaronis et al., 2015) and TREC ROBUST 2004 (Voorhees, 2005)做测试,结果表明改进后的模型比效果优于BM25-based baselines (Robertson and Zaragoza, 2009), DRMM, and PACRR。
模型
DRMM
这个模型是对DRMM模型进行改进,DRMM的结构如下图所示。
这里简单介绍下DRMM网络,详细点的介绍可以看之前写过的博客。
针对于query和document中的每个词,DRMM 使用预训练的词向量。首先对query中的每个词与doc所有词计算相似度(论文中使用了余弦距离),此处没有使用位置信息,而是将一个query对应的所有相似度进行分级(即文中说的直方图,称之为document-aware q-term encoding)。
得到document-aware q-term encoding之后,将其输入到一个全连接网络中,得到一个query词针对于一个doc的相关性分数。然后使用Term Gating Network得到权重分布(不同的词重要程度不同),在原始论文中,作者直接使用了softmax计算权重:
原始DRMM模型的缺点在于完全忽略了每个词的上下文信息以及词序信息,而一些新的position-aware模型例如 PACRR (Hui et al., 2017) 和基于循环神经网络的模型(Palangi et al., 2016)则考虑到这点。因此,基于DRMM模型,作者做了很多改进方法。
PACRR
论文对于DRMM的改进主要参考了PACRR的一些做法,下面简单介绍下PACRR模型。
PACRR首先根据query term embedding和doc term embedding计算词项之间的余弦距离,得到一个相似矩阵。对于不同长度的query和doc采用不同的padding策略:
- 对于不同长度的query:直接选取query集最大长度,短的query进行zero-padding
- 对于不同长度的document:原论文有两种策略,这篇论文只使用了第一种策略PACRR-firstk,即选择一个固定的k值,截长补短。
利用上述padding策略就可以得到固定维度的相似矩阵,之后利用不同大小的卷积核提取n-grams相似特征。对于每一类卷积核,输出通道为 n f n_f