中文数据挖掘的难点在于如何把文本变成计算机处理的向量,一个好的词向量方法可以提升分类或者其他应用效果。我把自己接触的词向量技术总结一下,方便自己复习和其他感兴趣的小伙伴交流学习。
使用结巴或者其他中文分词工具分完词后就需要生成词向量了,方便后期的数据挖掘工作的展开。
词向量技术:我接触的大致可以分成(1)基于统计的方法(2)基于图的方法(3)基于主题模型的方法(4)基于深度学习的方法
(1)基于统计的方法:
相似度,卡方,互信息(优点:可以得到对结果影响大的词;缺点:计算量比较大,需要先验知识,比如类别)
tf-idf (优点:简单、效果不错,可以得到每个词的权重;缺点:没考虑词的顺序,需要多篇语料才能得到比较好的词)
n-gram (优点:2-gram以上考虑了词顺序,提升了效果;缺点:随着n的增大,字典迅速扩大,而且训练用的向量特别稀疏)