写在前面
单纯用一个普通的Gephi逼格还不够高,继续尝试一下其进阶版——PMI-Gephi 进行改进文本共现分析
理论介绍

其中,分子是两个词语共同出现的概率,分母是两个词语分别出现的概率的乘积
在数学中,我们认为,理论上分子等于分母:

分子中的P(W1,W2) ,它指的是这两个词语在语料中的实际贡献概率
分母中的P(W1) 和 P(W2) ,它指的是两个词语实际出现的概率

W1 和 W2 的求法相同
在这里,“文档”是一个比较宽泛的概念,比如在我的毕设中即以一条评论作为一个文档
从理论上推导这两个词语共同出现的概率,也就是说分母相当于一个期望值,分子是一个实际出现的概率
如果说比值大于1(即实际贡献率>期望值)—该词语的贡献更有意义—网络关系生成
如果说比值小于1(即实际贡献率期望值)—该词语的贡献意义不大—不会生成网络关系
然后其余的方法也是和之前的类似

最低0.47元/天 解锁文章
3938





