文本挖掘:关键词提取与情感分析实践
1. 实验练习概述
在文本挖掘领域,有一系列丰富的实验练习可以帮助我们深入理解和应用相关技术。以下是对这些实验练习的详细介绍。
1.1 不同领域评论的二维投影实验
- 数据收集 :从不同领域收集新的正负评论样本,可考虑使用以下网站(2021年7月6日访问):
- https://www.tripadvisor.com/
- https://www.yelp.com/
- https://www.wayfair.co.uk/
- https://www.amazon.com/
- https://www.consumerreports.org/cro/index.htm
- 实验步骤 :重复之前实验中对不同领域评论进行二维投影的过程,为每对领域生成二维地图。
- 结果比较 :将自己的结果与之前报告的结果进行比较,观察相似性和差异。根据结果判断哪些类别更容易区分,哪些更难区分。
1.2 电影评论预处理实验
- 数据处理 :重现对1000条正负面电影评论的预处理过程,除了提取标记外,还需计算每个文档的词汇和频率计数。
- 统计计算 :计算两个类别以及整个集合的总运行词数和总词汇量,同时计算每个类别以及整个集合的最小、最大和平均
超级会员免费看
订阅专栏 解锁全文
637

被折叠的 条评论
为什么被折叠?



