文本数据挖掘-----词向量

本文介绍了词向量在中文数据挖掘中的重要性,包括基于统计、图、主题模型和深度学习的词向量方法。提到了tf-idf、n-gram、word2vec、doc2vec和fasttext等技术的优缺点,并指出实际应用中可能结合多种方法使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

中文数据挖掘的难点在于如何把文本变成计算机处理的向量,一个好的词向量方法可以提升分类或者其他应用效果。我把自己接触的词向量技术总结一下,方便自己复习和其他感兴趣的小伙伴交流学习。

使用结巴或者其他中文分词工具分完词后就需要生成词向量了,方便后期的数据挖掘工作的展开。

        词向量技术:我接触的大致可以分成(1)基于统计的方法(2)基于图的方法(3)基于主题模型的方法(4)基于深度学习的方法

(1)基于统计的方法:

  相似度,卡方,互信息(优点:可以得到对结果影响大的词;缺点:计算量比较大,需要先验知识,比如类别)

          tf-idf (优点:简单、效果不错,可以得到每个词的权重;缺点:没考虑词的顺序,需要多篇语料才能得到比较好的词)

           n-gram (优点:2-gram以上考虑了词顺序,提升了效果;缺点:随着n的增大,字典迅速扩大,而且训练用的向量特别稀疏)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值