LDA是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词,具体算法原理可参阅KM上相关文章。笔者因业务需求,需对腾讯微博上若干账号的消息进行主题提取,故而尝试了一下该算法,基于python的gensim包实现一个简单的分析。
准备工作
- 安装python的中文分词模块, jieba
- 安装python的文本主题建模的模块, gensim (官网 https://radimrehure
本文介绍了如何使用Python的gensim库实现LDA主题模型,以从大量文本中提取关键主题。首先,需要安装jieba进行中文分词,然后安装gensim,接着获取中文停用词表。通过实例展示了LDA在腾讯微博消息主题提取的应用。
LDA是文本挖掘中常用的主题模型,用来从大量文档中提取出最能表达各个主题的一些关键词,具体算法原理可参阅KM上相关文章。笔者因业务需求,需对腾讯微博上若干账号的消息进行主题提取,故而尝试了一下该算法,基于python的gensim包实现一个简单的分析。
4451

被折叠的 条评论
为什么被折叠?