自然语言处理实践——词频背后的语义


前言

在文章中表示词义的方法很简单,例如onehot就可以解决,但是在复杂的长篇的文章中想要表示相近词的意思使用简单的词义表示方法会更加困难,所以如何表示语义变成了亟需解决的问题。所以本文将重点讲述这个问题。


前文使用了TF-IDF向量和矩阵,表明每个词对于文档中的一小段文本总体含义的重要程度。

主要提到的一些名词:

  • LSA(latent senmatic analysis):隐性语义分析
  • LDA(linear discriminant analysis)线性判别分析
  • LDiA (latent Dirichlet allocation ) 隐形狄利克雷分布
  • LSI(latent semantic indexing)隐形语义索引
  • SVD 奇异值分解
  • PCA 主成分分析

一、怎样表示语义?

在一般情况下,表述语义的方式是将多个表示同样意思的词向量进行权重计算得到语义向量。
像各种水果会汇聚而成一个水果向量,各种动物会汇聚而成一个动物向量,诸如此类,不同主题都会拥有一个这样的主题向量。这样的一个过程,在我看来就叫做隐形语义分析。【LSA】

PCA 主成分分析是另外一种LSA的表述方式,思想相同。

二、多主题语义如何表示?

单个的主题向量是一个向量,在自然语言中表达方式千千万的真实数据中,应该是用怎样的方式进行表达呢?

所以我们提到了一种SVD的方法对文档词项矩阵进行计算,SVD的本质是找出现存矩阵的特征矩阵,找到特征矩阵可以减少无效计算,也可以更简单的表示文档中不同主题的表示。【SVD】

至于SVD如何分解为三个矩阵这种数学基础不纷繁复杂的表述了,表示出来更迷惑,总之就要完成一个目的:找到特征值表示整个矩阵。

三、这些方法的用途?

  1. 基于PCA的短消息语义分析
    PCA 主成分分析,分析短消息中存在的多种词义以及词义间的关系,进而分析短消息表示的语义。
  2. 基于截断的SVD的短消息语义分析
    截断的SVD就是指线性代数中截断了那些非特征向量,仅用特征值表示短消息的语义。
  3. 基于LSA的垃圾短消息分类
    LSA 隐形与分析,主要是用某方向的单个向量判断当前短消息属于那一个主题。
  4. 基于LiDA主题模型的短消息语义分析
  5. LDiA+LDA=垃圾消息过滤器

总结

应该用大量的例子来证实提及的理论和算法,但任何一本书中都存在,指写出阅读后感悟到的抽象层面的结论。

本人才疏学浅,烦请大家留言讨论。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值