DSSM的细节

最新推荐文章于 2022-12-12 08:00:00 发布

原创最新推荐文章于 2022-12-12 08:00:00 发布 · 3.2k 阅读

3 ·

CC 4.0 BY-SA版权

深度学习同时被 2 个专栏收录

33 篇文章

订阅专栏

NLP

21 篇文章

订阅专栏

word hashing

word hashing方法是用来减少输入向量的维度，该方法基于字母的n-gram。给定一个单词（good），我们首先增加词的开始和结束部分（#good#），然后将该词转换为字母n-gram的形式（假设为trigrams：#go，goo，ood，od#）。最后该词使用字母n-gram的向量来表示。

这种方法的问题在于有可能造成冲突，因为两个不同的词可能有相同的n-gram向量来表示, 但经统计发现冲突很小。与原始的ont-hot向量表示的词典大小相比，word hashing明显降低了向量表示的维度。

DSSM的输入层，是把1个句子的multi-hot向量，转成1个3-gram的multi-hot的向量，达到降维目的，其实也是bag-of-words，忽略了词之间的顺序。

负例样本，就是在该query检索出来的样本里，没有被点击的样本（最后一个点击样本之前的才算进去）；是不是该正例所在的query，还是所有同样query里的，就不清楚了。。。原文说，负例的采样方式(1正4负)，对最终效果的影响不大。我们公司肯定是用的该query展示而未点击过的样本，而不是和该query无关的样本，为的是在高质量的召回doc里强化更语义相关的doc，属于精化。

损失函数：最大化{经过softmax之后，Q和D+的相似度} (Q和D-的相似度是分母，最小化分母就等价于最大化分子了)

论文中说需要挑出点击和曝光置信度比较高且资源热度也比较高的作为训练样本，这样就过滤了 80%的长尾 query 和 Title 结果对

从对比实验看出，效果提升主要来自：1.弱监督信息的引入(click, non-click)；2.word-hashing降维; 3.三个隐藏层；

优点：

解决了LSA、LDA、Autoencoder等方法存在的一个最大的问题：字典爆炸（导致计算复杂度非常高），因为在英文单词中，词的数量可能是没有限制的，但是字母n-gram的数量通常是有限的
基于词的特征表示比较难处理新词(未登录词, out-of-vocabulary)，字母的n-gram可以有效表示，鲁棒性较强
使用有监督方法，优化语义embedding的映射问题
省去了人工的特征工程

缺点：