R语言利用jiebaR和wordcloud2对有关钻石公主号的评论绘制词云_在r语言环境下,使用stringr和jiebar和wordcloud2,对评论进行关键词处理,并生成-优快云博客

本文链接：https://blog.youkuaiyun.com/xspyzm/article/details/104797714

本博客介绍了一次针对钻石公主号事件的社交媒体评论的词云分析过程，使用R语言的wordcloud2和jiebaR包进行中文分词，通过自定义词典和停用词筛选，最终生成了反映评论热点的词云图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里要对有关钻石公主号事件的评论做词云分析，通过用户自定义词典和停用词来对评论进行分词

引入包

library(wordcloud2)
library(jiebaR)
library(RColorBrewer)

读入数据并分词。这里我们的数据是每一行为一个评论，一开始我用的read.table和read.csv来读入，以‘’为分隔符，但总出现某个换行以/n的形式出现在数据中，所以我们采用readLines函数来进行数据导入。user.txt是用户自定义词典，用来来保留一些相关词汇，防止像“钻石公主号”这样的词汇被分成“钻石”，“公主”，“号”。

mydata<-readLines(con <- file("comment2.7-2.9.txt", encoding = "UTF-8"))
wk = worker(user='user.txt')
human_future_txt1<-segment(mydata,wk)

过滤掉一个字的词并查看一下剩下多少词

human_future <- subset(human_future_txt1, nchar(human_future_txt1)>1)
length(human_future)

去掉停用词再看剩下多少词，关于停用词也是由一个txt文件存储，同样使用readLines来读入，使用停用词是为了防止像一些特殊符号、数字和“一个”这种没有实际意义的词汇加入到词频统计。

stopwords_CN<-readLines(con <- file("hit_stopwords.txt", encoding = "UTF-8"))
for(j in 1:length(stopwords_CN)){
  human_future <- subset(human_future,human_future!=stopwords_CN[j])
}
length(human_future)

进行词频统计和排序，选取最频繁的前100个词来做词云

human_future_freq<-table(human_future)
human_future_freq<-human_future_freq[!grepl('[0-9]+',names(human_future_freq))]

human_future_result<-human_future_freq[order(human_future_freq, decreasing = TRUE)]
human_future_front <- human_future_result[1:100]

最后作词云，颜色这里设置了从一个蓝色主题色系中抽取了颜色较深的前6个，每个颜色有4个，也就是说最频繁的前24个颜色是依次渐浅，剩下的76个设置成天空蓝。结果如图

wordcloud2(human_future_front,
		color=c(rep(rev(brewer.pal(9, "Blues"))[1:6],each=4),rep("skyblue",76)),
		shape='cardioid',size=0.6,minSize = 0, gridSize =  0,
           	fontFamily = 'Segoe UI', fontWeight = 'bold',backgroundColor = "white",
           	minRotation = -pi/4, maxRotation = pi/4, shuffle = TRUE,
           	rotateRatio = 0.4,  ellipticity = 0.65)