机器学习在文本分析与Web应用中的实践
1. LDA文本分解
LDA(Latent Dirichlet Allocation)是一种生成概率模型,旨在找出在不同文档中频繁共同出现的词组,这些频繁出现的词代表主题。假设每个文档是不同单词的混合,LDA的输入是词袋模型。给定词袋矩阵作为输入,LDA将其分解为两个新矩阵:
- 文档 - 主题矩阵
- 单词 - 主题矩阵
LDA分解词袋矩阵的方式是,将这两个矩阵相乘,能以最小误差重现输入的词袋矩阵。不过,需要事先定义主题的数量,这是LDA的一个超参数,必须手动指定。
1.1 使用scikit - learn进行LDA
以下是使用scikit - learn中的 LatentDirichletAllocation 类对电影评论数据集进行分解并分类为不同主题的步骤:
1. 加载数据集 :
import pandas as pd
df = pd.read_csv('movie_data.csv', encoding='utf - 8')
- 创建词袋矩阵 :
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer(stop_words=
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



