『论文阅读』SIF:一种简单却难以打败的句子嵌入方法

  文献:A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

  在进行了词嵌入的研究后,我们往往会联想到这样一个问题:既然单词可以用向量表示,那么由一个个单词组成的句子,可不可以也用向量表示呢?如果可以的话,句子之间就可以进行向量的运算,计算它们之间的相似度,进而可以对句子进行聚类或者进行匹配

  因此,这篇文献提出了一种简单但又难以打败的计算句子嵌入的方法,使得句子向量计算的性能得到了提升。

  关于代码的实现,请看 记录一次失败的句子相似性实验 。当时效果不太好,但是后来的结果证明,还是可取的!大家谨慎参考!



ABSTRACT

  应用神经网络方法来计算单词嵌入的成功促进了对于较长段落(例如文本)语义嵌入的研究。而作者提出了这样一种句子嵌入方法:通过一种流行的方法对未标记的语料库(如 W i k i p e d i a Wikipedia Wikipedia)计算词嵌入,通过词向量的加权平均值表示句子,然后使用 P C A PCA PCA / / / S V D SVD SVD 对其进行一些修改

  这种加权可将文本相似性任务的性能提高约 10% 到 30%,并且优于包括 R N N RNN RNN L S T M LSTM LSTM 在内的复杂的监督方法。这种简单的方法在将来的研究中应当作为 b a s e l i n e baseline baseline,尤其是在带有标签的训练数据稀缺或不存在的情况下。


INTRODUCTION

  使用多种方法计算的词嵌入是自然语言处理 ( N L P NLP NLP) 和信息检索 ( I R IR IR) 的基本构建块。它计算词与词之间的相似性。而最近的工作尝试从单词向量的简单加总平均到复杂的方法(例如卷积神经网络和递归神经网络)来计算单词序列(短语,句子和段落)语义的嵌入。

  在这里,作者提供了一种非常简单的句子嵌入方法:只计算句子中单词向量的加权平均值,然后删除平均向量在其第一个主成分上的投影(“公共成分去除”)。我们称它为平滑反频率 ( s m o o t h smooth smooth i n v e r s e inverse inverse f r e q u e n c y frequency frequency)。

  ( 1 1 1) 单词 w w

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值