【R语言文本挖掘】:情感分析与词云图绘制_情感词云

  • 🌸个人主页:JOJO数据科学
  • 📝个人介绍:小编大四统计在读,目前保研到统计学top3高校继续攻读统计研究生
  • 💌如果文章对你有帮助,欢迎✌关注、👍点赞、✌收藏、👍订阅专栏
  • ✨本文收录于【R语言数据科学】 本系列主要介绍R语言在文本挖掘领域的应用包括:情感分析、TF-IDF、主题模型等。本系列会坚持完成下去,请大家多多关注点赞支持,一起学习~,尽量坚持每周持续更新,欢迎大家订阅交流学习!

请添加图片描述

引言

在上一章中,我们深入探讨了tidy data的含义,并展示了如何使用这种格式来处理有关词频的问题。这使我们能够分析文档中最常用的单词并比较文档,但现在让我们研究一个不同的问题。让我们讨论情绪分析的主题。当我们阅读一段文本时,我们会利用我们对词语情感意图的理解来推断一段文本是正面的还是负面的,或者可能以其他更细微的情绪为特征,如惊讶或厌恶。 我们可以使用文本挖掘工具以编程方式处理文本的情感内容,如下图所示

image-20220717193903881

上图演示了如何使用 tidytext 进行情感分析的典型文本分析流程图。本章展示了如何使用 tidy data 原则来实现情感分析。

分析文本情感的一种方法是将文本视为单个单词的组合,将整个文本的情感内容视为各个单词的情感内容的总和。这不是进行情绪分析的唯一方法,但它是一种常用的方法,也是一种自然利用整洁工具生态系统的方法。

1.情感数据集

如上所述,存在多种用于评估文本中的观点或情感的方法和字典。 tidytext 包提供了对几个情感词典的访问。三个通用词典是:

  • AFINN
  • bing
  • nrc

所有这三个词典都基于一元词组(unigram),即单个单词。这些词典包含许多英语单词,并且这些单词被分配了正面/负面情绪的分数,也可能是喜悦、愤怒、悲伤等情绪。 nrc 词典以二进制方式(“是”/“否”)将单词分类为积极、消极、愤怒、预期、厌恶、恐惧、快乐、悲伤、惊讶和信任的类别bing词典以二进制方式将单词分为正面和负面类别。 AFINN 词典为单词分配一个介于 -5 和 5 之间的分数,负分表示负面情绪,正分表示正面情绪。

在下载数据之前,我们可能会被要求同意许可。如果在jupyter-notebook里面运行的话会失败,建议大家在rstudio里面先运行下载。

函数 get_sentiments() 允许我们获取特定的情感词典,并为每个词典提供适当的度量。我们现在来看一下各个情绪词典的信息

library(`tidytext`)
library(dplyr)
get_sentiments("nrc") %>% head()

A tibble: 6 × 2

word sentiment
abacus trust
abandon fear
abandon negative
abandon sadness
abandoned anger
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值