密集向量表示:GloVe与word2vec技术详解
1. 正互信息矩阵计算与结果
在处理文本数据时,我们可以通过特定方法计算正互信息矩阵。使用 np.log2() 函数时,通过 where 参数避免对零元素应用该函数,并使用 out 参数将零元素替换为0。计算正互信息矩阵的代码如下:
pmi_mat = build_pmi_mat(cooc_mat)
对荷马作品计算正互信息后,使用 fbpca() 对 pmi_mat 进行主成分分析(PCA),将向量维度降至50,并检索最相似的单词,得到以下结果:
| 单词 | 相似单词列表 |
| — | — |
| he | [‘him’, ‘his’, ‘was’] |
| she | [‘her’, ‘herself’,’minerva’] |
| ulysses | [‘telemachus’, ‘eumaeus’,’said’] |
| penelope | [‘telemachus’, ‘euryclea’, ‘nurse’] |
| achaeans | [‘trojans’, ‘danaans’, ‘hector’] |
| trojans | [‘achaeans’, ‘danaans’, ‘battle’] |
不过,这些结果与之前的方法相比,相关性似乎稍低。
超级会员免费看
订阅专栏 解锁全文
1026

被折叠的 条评论
为什么被折叠?



