本文探讨一个基于多源文档片段的排序模型,所谓多源文档片段与传统的query对应document的区别在于,document不仅仅包含文档内容和文档标题,还包括一些其他信息,比如相关链接的文档内容、引导点击对应文档的query(clicked query),如何将这些信息都利用上就成为了一个新的问题,文章提出了一个解决该问题的模型。
首先,模型的整体思路是将query和document 分别表示成两个向量,然后计算出匹配得分,思路如下图所示:
对于doc representation,模型参考Learning Deep Structured Semantic Models for Web Search using Clickthrough Data中使用的word hash来降低词向量的维度,设置n为3来降低冲突概率,并通过embedding层得到hash值对应的向量。通过embedding层得到的词向量防止了长度过长的词权重过高的影响,同时采用与word2vec不同的基于相关性的词向量表示。在embedding层之后是两个卷积层,分别提取词级别和句子级别的特征,最后通过一个全连接层得到最终的向量表示,模型结构如下图所示:
以上模型只是对于单个文本的表示,而如之前所说,在一个document中有多个field,每个field内又有多个instance,每个instance都是一个文本。因此,将所有instance的表示向量结合起来就得到