17、主题建模与市场篮子分析:数据挖掘的两大实用技术

主题建模与市场篮子分析:数据挖掘的两大实用技术

主题建模

主题建模是一种从大量文档中提取信息的有效方法,它能够揭示文档的潜在结构。常见且有效的主题建模算法有隐狄利克雷分配(LDA)和非负矩阵分解(NMF)。

1. 非负矩阵分解(NMF)

NMF是一种非概率主题模型,旨在解决与LDA相同的问题。它基于线性代数中的矩阵分解概念,将一个大而复杂的矩阵分解为更小、更易解释的矩阵,从而回答关于数据的许多问题。需要注意的是,非负要求并非源于数学,而是数据本身的性质,因为文档的组成部分为负数是没有意义的。

在很多情况下,NMF的性能不如LDA,因为LDA结合了先验分布,为主题词分组提供了额外的信息。然而,在某些情况下,尤其是当主题高度相关时,NMF的表现更优,如基于头条数据的练习所示。

以下是关于NMF的相关操作:
- 可视化NMF结果
- 第一步,对清理后的数据运行transform操作,以获取主题 - 文档分配。代码如下:

nmf_transform = nmf.transform(clean_vec2)
print(nmf_transform.shape)
print(nmf_transform)
- 第二步,运行plot_tsne函数以拟合t - SNE模型并绘制结果:
plot_tsne(data=nmf_transform, threshold=0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值