2024年大数据最全【R语言文本挖掘】：情感分析与词云图绘制_情感词云，准备大数据开发面试

本文链接：https://blog.youkuaiyun.com/2401_84166965/article/details/138814755

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

🌸个人主页：JOJO数据科学

📝个人介绍：小编大四统计在读，目前保研到统计学top3高校继续攻读统计研究生

💌如果文章对你有帮助，欢迎✌关注、👍点赞、✌收藏、👍订阅专栏

✨本文收录于【R语言数据科学】本系列主要介绍R语言在文本挖掘领域的应用包括：情感分析、TF-IDF、主题模型等。本系列会坚持完成下去，请大家多多关注点赞支持，一起学习~，尽量坚持每周持续更新，欢迎大家订阅交流学习！

请添加图片描述

引言

在上一章中，我们深入探讨了tidy data的含义，并展示了如何使用这种格式来处理有关词频的问题。这使我们能够分析文档中最常用的单词并比较文档，但现在让我们研究一个不同的问题。让我们讨论情绪分析的主题。当我们阅读一段文本时，我们会利用我们对词语情感意图的理解来推断一段文本是正面的还是负面的，或者可能以其他更细微的情绪为特征，如惊讶或厌恶。 我们可以使用文本挖掘工具以编程方式处理文本的情感内容，如下图所示

上图演示了如何使用 tidytext 进行情感分析的典型文本分析流程图。本章展示了如何使用 tidy data 原则来实现情感分析。

分析文本情感的一种方法是将文本视为单个单词的组合，将整个文本的情感内容视为各个单词的情感内容的总和。这不是进行情绪分析的唯一方法，但它是一种常用的方法，也是一种自然利用整洁工具生态系统的方法。

1.情感数据集

如上所述，存在多种用于评估文本中的观点或情感的方法和字典。 tidytext 包提供了对几个情感词典的访问。三个通用词典是：

AFINN
bing
nrc

所有这三个词典都基于一元词组（unigram），即单个单词。这些词典包含许多英语单词，并且这些单词被分配了正面/负面情绪的分数，也可能是喜悦、愤怒、悲伤等情绪。 nrc 词典以二进制方式（“是”/“否”）将单词分类为积极、消极、愤怒、预期、厌恶、恐惧、快乐、悲伤、惊讶和信任的类别。bing词典以二进制方式将单词分为正面和负面类别。 AFINN 词典为单词分配一个介于 -5 和 5 之间的分数，负分表示负面情绪，正分表示正面情绪。