NLP7:综合实验

本文介绍了一个NLP实验过程,包括关键词提取算法的训练及应用,使用中文搜狗新闻语料库进行LDA主题提取,并通过可视化工具帮助理解主题分布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

实验要求

完成对中文搜狗新闻语料库的LDA主题提取。

实验内容

一、训练关键词提取算法

(1)加载已有的文档数据集。

在这里插入图片描述
为了解决编码错误,将编码改为GB18030:
在这里插入图片描述

能读取的文件数量从17678,增加到了17910。
打印文件内容信息,检查是否正确。
在这里插入图片描述

(2)加载停用词表。

在这里插入图片描述

(3)对数据集中的文档进行分词。并根据停用词表,过滤干扰词。

1.去除文本中的日期和时间
Demo1:
在这里插入图片描述
Demo2:
由于还需去除文本中的数字和英文字符,因此对于2022年1月1日这种字符串,去除“年”、“月”、“日”、“时”、“分”、“秒”即可,即将这些字符加入停用词中。而后发现原有停用词已包含这些字符,因此不需要额外处理。
在这里插入图片描述
2.去除文本中的数字和英文字符
Demo:
在这里插入图片描述
3.去除停用词
在这里插入图片描述
\n没有去除。寻找原因:1.停用词中没有\n,因此先打印停用词列表。
在这里插入图片描述
找到问题。如果不想让转义字符生效,需要显示字符串原来的意思,这就要用r和R来定义原始字符串。用了r后,还是存在问题。
使用另一种解决方案,问题得到解决。
在这里插入图片描述
最终版本:
在这里插入图片描述
其中,当len(words) =0时,不添加到列表。

(4)分词后单词的可视化

在这里插入图片描述
在这里插入图片描述
可以发现,单个词语和市场出现频率很高。

(5)根据数据集训练算法。

在这里插入图片描述
发现词频过高的词语会影响主题判断,因此进行过滤。
在这里插入图片描述

pyLDAvis是一个可以帮助用户理解语料库中主题分布的一个可视化工具。 pyLDAvis从训练好的LDA主题模型中提取信息,以通Web的交互式形式将主题分布做可视化的展示。
在这里插入图片描述

解决:pip install pyLDAvis==2.1.2

基于TF-IDF的建模:
在这里插入图片描述

基于计数的建模:

在这里插入图片描述

验证:
在这里插入图片描述
预期:
C000007 汽车
C000008 财经
C000010 IT
C000013 健康
C000014 体育
C000016 旅游
C000020 教育
C000022 招聘
C000023 文化
C000024 军事

不太符合。。。后期可以改进。

二、对新文档进行关键词提取

(1)对新文档进行分词。

在这里插入图片描述

(2)根据停用词表,过滤干扰词。

在这里插入图片描述

(3)根据训练好的算法提取关键词。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是Yu欸

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值