论文阅读:Neural Ranking Models with Multiple Document Fields

本文探讨一个基于多源文档片段的排序模型,所谓多源文档片段与传统的query对应document的区别在于,document不仅仅包含文档内容和文档标题,还包括一些其他信息,比如相关链接的文档内容、引导点击对应文档的query(clicked query),如何将这些信息都利用上就成为了一个新的问题,文章提出了一个解决该问题的模型。

首先,模型的整体思路是将query和document 分别表示成两个向量,然后计算出匹配得分,思路如下图所示:

 对于doc representation,模型参考Learning Deep Structured Semantic Models for Web Search using Clickthrough Data中使用的word hash来降低词向量的维度,设置n为3来降低冲突概率,并通过embedding层得到hash值对应的向量。通过embedding层得到的词向量防止了长度过长的词权重过高的影响,同时采用与word2vec不同的基于相关性的词向量表示。在embedding层之后是两个卷积层,分别提取词级别和句子级别的特征,最后通过一个全连接层得到最终的向量表示,模型结构如下图所示:

 以上模型只是对于单个文本的表示,而如之前所说,在一个document中有多个field,每个field内又有多个instance,每个instance都是一个文本。因此,将所有instance的表示向量结合起来就得到

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值