自然语言处理实践——词频背后的语义

最新推荐文章于 2025-07-20 21:07:45 发布

原创最新推荐文章于 2025-07-20 21:07:45 发布 · 400 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理

自然语言处理专栏收录该内容

7 篇文章

订阅专栏

文章目录

前言
一、怎样表示语义？
二、多主题语义如何表示？
三、这些方法的用途？
总结

前言

在文章中表示词义的方法很简单，例如onehot就可以解决，但是在复杂的长篇的文章中想要表示相近词的意思使用简单的词义表示方法会更加困难，所以如何表示语义变成了亟需解决的问题。所以本文将重点讲述这个问题。

前文使用了TF-IDF向量和矩阵，表明每个词对于文档中的一小段文本总体含义的重要程度。

主要提到的一些名词：

LSA（latent senmatic analysis）:隐性语义分析
LDA（linear discriminant analysis）线性判别分析
LDiA (latent Dirichlet allocation ) 隐形狄利克雷分布
LSI（latent semantic indexing）隐形语义索引
SVD 奇异值分解
PCA 主成分分析

一、怎样表示语义？

在一般情况下，表述语义的方式是将多个表示同样意思的词向量进行权重计算得到语义向量。
像各种水果会汇聚而成一个水果向量，各种动物会汇聚而成一个动物向量，诸如此类，不同主题都会拥有一个这样的主题向量。这样的一个过程，在我看来就叫做隐形语义分析。【LSA】

PCA 主成分分析是另外一种LSA的表述方式，思想相同。

二、多主题语义如何表示？

单个的主题向量是一个向量，在自然语言中表达方式千千万的真实数据中，应该是用怎样的方式进行表达呢？

所以我们提到了一种SVD的方法对文档词项矩阵进行计算，SVD的本质是找出现存矩阵的特征矩阵，找到特征矩阵可以减少无效计算，也可以更简单的表示文档中不同主题的表示。【SVD】

至于SVD如何分解为三个矩阵这种数学基础不纷繁复杂的表述了，表示出来更迷惑，总之就要完成一个目的：找到特征值表示整个矩阵。

三、这些方法的用途？

基于PCA的短消息语义分析
PCA 主成分分析，分析短消息中存在的多种词义以及词义间的关系，进而分析短消息表示的语义。
基于截断的SVD的短消息语义分析
截断的SVD就是指线性代数中截断了那些非特征向量，仅用特征值表示短消息的语义。
基于LSA的垃圾短消息分类
LSA 隐形与分析，主要是用某方向的单个向量判断当前短消息属于那一个主题。
基于LiDA主题模型的短消息语义分析
LDiA+LDA=垃圾消息过滤器

总结

应该用大量的例子来证实提及的理论和算法，但任何一本书中都存在，指写出阅读后感悟到的抽象层面的结论。

本人才疏学浅，烦请大家留言讨论。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。