新闻组数据集潜在主题挖掘与机器学习最佳实践
新闻组数据聚类与主题建模
在处理新闻组数据时,我们可以通过聚类和主题建模的方法来挖掘隐藏在其中的相似性,比如语义组、主题或词云等。
聚类结果分析
我们先对新闻组数据进行聚类操作。从聚类结果来看:
- cluster_0 明显与太空相关,几乎包含了所有 sci.space 的样本,相关术语有 moon、nasa、launch、shuttle 和 space 等。
- cluster_1 是一个比较通用的主题。
- cluster_2 更多地与计算机图形相关,相关术语有 format、program、file、graphic 和 image 等。
- cluster_3 很有趣,它成功地将无神论和宗教这两个有重叠的主题结合在一起,关键术语包括 moral、morality、jesus、christian 和 god 等。
通过聚类来为每个文本组找到关键术语是很有趣的,但主题建模是一种更直接的方法。主题建模是一种统计模型,用于发现与主题相关的单词的概率分布。这里的主题是一个模糊的统计概念,是文档集合中出现的一种抽象。
主题建模算法
主题建模广泛用于挖掘给定文本数据中的隐藏语义结构,有两种流行的主题建模算法:非负矩阵分解(NMF)和潜在狄利克雷分配(LDA)。
非负矩阵分解(NMF)
NMF 严重依赖线性代数,它将输入矩阵 V 分解为两个较小矩阵 W 和 H 的乘积,且这三个矩阵都没有负值。在自然语言处理(NLP)的上下文中,这三个矩阵的含义如下:
- 输入矩阵
超级会员免费看
订阅专栏 解锁全文
2360

被折叠的 条评论
为什么被折叠?



