文本表示（五）短语的分布式表示

最新推荐文章于 2025-09-08 15:54:08 发布

原创最新推荐文章于 2025-09-08 15:54:08 发布 · 672 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文本表示专栏收录该内容

5 篇文章

订阅专栏

本文探讨了短语的分布式表示学习方法，包括视短语为独立语义单位和基于组合语义的学习方式。介绍了基于词袋和自动编码机的分布式表示，以及如何改进词权重和词序问题。

短语的分布式表示

短语的分布式表示学习方法分为两种：一是视短语为不可分割的独立语义单位，然后基于分布式假说学习短语的语义向量表示；二是认为短语的语义由词组合而成，关键是学习词和词之间的语义组合方式。

因为短语出现的频率很低，所以如果将短语视为一个不可分割的独立语义单位，那么将没有足够频率的语料来训练短语向量，所以第一种方式就不可行了。基于组合语义的短语表示学习是一种更加合理的方法。

基于词袋的分布式表示

给定一个由i个词组成的短语 $ph_i=w_1w_2...w_n$ ，利用词袋的分布式表示为，对这个短语中的词向量进行平均或者对词向量的每一维取最大值等方式来进行表示：

$phi=1i∑k=1ie(wk)ph_i= \frac{1}{i}\sum^i_{k=1}{e(w_k)}$
$phi=maxk=1i(e(w1)k,e(w2)k,...,e(wn)k)ph_i=max^i_{k=1}(e(w_1)_k,e(w_2)_k,...,e(w_n)_k)$

不过这种方法有两个缺点：没有考虑到短语中不同的词对短语的影响权重，也没有考虑到词序对短语语义的影响。

针对第一种缺点，可以类似字词混合时那样，对词向量平均的基础上增加词的权重信息：

$phi=1i∑k=1ivk⋅e(wk)ph_i= \frac{1}{i}\sum^i_{k=1}{v_k·e(w_k)}$
其中 $v_k$ 可以是词 $w_k$ 的tf-idf值也可以是字词混合的门限机制。

针对于没有对词序的关注，所以有了接下来的自动编码机方法。

基于自动编码机的分布式表示

因为在很多情况下词语词序的不同语义会完全不同，所以短语的分布式语义表示学习需要对词语的顺序进行有效的建模。所以接下来的方法就是解决词序问题的。

递归自动编码机(recursive auto encoder,RAE)：以递归的方式自底向上不断的合并两个子节点的向量表示，直到获得短语的向量表示。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。