22、机器学习在文本分析与Web应用中的实践

机器学习在文本分析与Web应用中的实践

1. LDA文本分解

LDA(Latent Dirichlet Allocation)是一种生成概率模型,旨在找出在不同文档中频繁共同出现的词组,这些频繁出现的词代表主题。假设每个文档是不同单词的混合,LDA的输入是词袋模型。给定词袋矩阵作为输入,LDA将其分解为两个新矩阵:
- 文档 - 主题矩阵
- 单词 - 主题矩阵

LDA分解词袋矩阵的方式是,将这两个矩阵相乘,能以最小误差重现输入的词袋矩阵。不过,需要事先定义主题的数量,这是LDA的一个超参数,必须手动指定。

1.1 使用scikit - learn进行LDA

以下是使用scikit - learn中的 LatentDirichletAllocation 类对电影评论数据集进行分解并分类为不同主题的步骤:
1. 加载数据集

import pandas as pd
df = pd.read_csv('movie_data.csv', encoding='utf - 8')
  1. 创建词袋矩阵
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer(stop_words=
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值