Kaggle（七）特征选择方法之LDA

最新推荐文章于 2024-01-24 12:44:05 发布

原创最新推荐文章于 2024-01-24 12:44:05 发布 · 753 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #机器学习 #数据挖掘

本文介绍了一种基于LDA（Latent Dirichlet Allocation）的主题模型实现方法，包括其工作原理、参数设置及如何评估模型效果等内容。通过随机生成文档对应主题分布并进一步生成文档中的词语，最终达到自动分类文档的目的。

简介

确定主题数量，通过确定a，b的参数值来控制两个齿轮的状态来随机生成一篇新文档，通过对比新旧文档来判断模型的好坏，在不同参数模型中，找到最优模型（也就是最佳a，b值）

特征

把若干文档自动编码分类为一定数量的主题，极大减少人为干预和负担

原理

第一步，阿尔法随机生成文档对应主题的多项式分布西塔

第二步，西塔随机生成一个主题西格玛，

第三步，贝塔随机生成主题对应词语的多项式分布fai

第四步，综合主题西格玛和主题对应词语分布情况fai，生成词语，如此循环生成一个文档，包含M个词语，最终生成K的主题下的N前文档。

代码操作

预处理：

LDA分析

导入sklearn

定义函数（不知道干什么的）

将数据转化格式

提取词语数量可根据需要修改

定义主题

doc-topic-prior相当于a一般定为

topic-word-prior相当于贝塔，一般定为0.01

也可以省略，让模型自己选值默认为1/n

运行结果：打印每个主题下前15个词语（注意主题名字需要自定义）

确定最优主题数量

方法一可视化：

导入pyLDAvis

结果显示：每个圈代表一个主题，离的越远代表主题的相似性越低，代表化分的好。

方法二主题困惑度（更严谨）

表示从第几个主题到几个主题困惑度的变化

最低的主题困惑度最优

结果显示：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。