主题建模与市场篮子分析:数据洞察的双引擎
1. 主题建模
1.1 主题模型算法对比
在处理大量文本数据时,主题建模是一种强大的工具,它能帮助我们挖掘文本背后的潜在结构。其中,潜在狄利克雷分配(LDA)和非负矩阵分解(NMF)是两种常见且有效的主题建模算法。
LDA和NMF的目标都是找到文本中的主题,但实现方式有所不同。LDA是一种概率主题模型,它假设文档是由多个主题混合而成,每个主题又由一组单词表示。而NMF是一种非概率主题模型,它利用矩阵分解的思想,将一个大而复杂的矩阵分解为多个小而易于解释的矩阵,从而揭示数据中的主题结构。
例如,在一个包含健康推特数据的分析中,我们发现NMF生成的词 - 主题表与LDA生成的结果有相似之处,但也存在一些差异。部分词在分组中的位置或是否出现有所不同,这是由于两种方法的原理不同导致的。不过,通过与原始数据集中指定的主题进行对比,我们发现这两种方法都能有效地提取语料库的潜在主题结构。
1.2 非负矩阵分解(NMF)可视化
为了更直观地了解NMF的结果,我们可以使用t - 分布式随机邻域嵌入(t - SNE)进行可视化。以下是具体的操作步骤:
1. 对清理后的数据进行转换,得到主题 - 文档分配结果,并打印数据的形状和示例:
nmf_transform = nmf.transform(clean_vec2)
print(nmf_transform.shape)
print(nmf_transform)
- 运行
主题建模与市场篮子分析
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



