文本表示
文章平均质量分 79
JustMo_
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
文本表示(五)短语的分布式表示
短语的分布式表示短语的分布式表示学习方法分为两种:一是视短语为不可分割的独立语义单位,然后基于分布式假说学习短语的语义向量表示;二是认为短语的语义由词组合而成,关键是学习词和词之间的语义组合方式。因为短语出现的频率很低,所以如果将短语视为一个不可分割的独立语义单位,那么将没有足够频率的语料来训练短语向量,所以第一种方式就不可行了。基于组合语义的短语表示学习是一种更加合理的方法。基于词袋的分布...原创 2019-11-11 21:52:32 · 672 阅读 · 0 评论 -
文本表示(四)字词混合的分布式表示方法
字词混合的分布式表示方法前面的方法都是基于分布式假说来进行的建模,而基于分布式假说的词向量表示学习需要足够的上下文信息来捕捉一个词的语义,也就是要求词出现的频率足够高。但是根据齐夫定律,绝大多数的词在语料中很少出现,对于这些词,无法依据分布式假说来获得高质量的词向量表示。前面利用的是词来进行的建模,但是词并不是最小的语言单位,词是由字或字符构成的。所以也可以使用字或字符来进行语义的研究。定义...原创 2019-11-06 21:19:34 · 1105 阅读 · 0 评论 -
文本表示(三)CBOW模型和Skip-gram模型
CBOW模型和Skip-gram模型在前面提到的神经网络语言模型、c&W模型,都没有缺少隐藏层,而模型运算的高消耗都在输入层到隐藏层的矩阵运算中,如果能减少这部分开销,那么模型会更加高效。而CBOW模型和Skip-gram模型就属于这一类模型。CBOW模型CBOW模型的思想与c&w模型的思想类似:输入上下文词语,预测中心目标词。与c&w模型以优化正样本与负样本之间的...原创 2019-11-04 21:17:33 · 1407 阅读 · 0 评论 -
文本表示(二)c&w模型
文本表示(二)c&w模型在前面提到的神经网络语言模型中,词向量只是一个副产品,并不是核心任务(它主要训练了一个用来度量语言流畅程度的模型,其中词向量是它中间产品),而且神经网络模型中的矩阵运算操作会极大的降低模型的训练效率。所以如果目标只是学习词向量的话,可以没必要采用语言模型的方式,而可以直接从分布式假说的角度来设计模型和目标函数,c&w模型就是直接以学习和优化词向量为最终...原创 2019-10-31 21:39:06 · 3151 阅读 · 0 评论 -
文本表示(一)神经网络语言模型
文本的表示因为文本是由文字、标点组成的,但是计算机并不能高效的处理真实的文本;为了解决这种问题,就需要一种形式化的方法来表示真实文本。通常将文本转换为向量进行表示。向量空间模型向量空间模型(vector space model,VSM)是一种最简单的文本表示方法。VSM假设文档符合:a、各特征项tit_iti不重复;b、各特征项没有顺序关系。在这两个假设下可以把所有的特征项t1,...,...原创 2019-10-28 22:03:58 · 1424 阅读 · 1 评论
分享