在R语言中获取txt文件文本,并进行词频统计,然后自定义词云图。
先获取txt文本
wordfreqs = read.table("E:\\Python实训\\哔哩哔哩弹幕爬取\\dan_mu.txt"
,encoding = "UTF-8")
这是事先用python爬虫准备好的B站番剧(排球少年)弹幕文本(当然也可以先自定义文本进行测试)。
停止词
readLines("E:\\数据处理\\PyDataPreprocessing-master\\Files\\NLPIR_stopwords.txt"
)
work <- worker(stop_word = "E:\\数据处理\\PyDataPreprocessing-master\\Files\\NLPIR_stopwords.txt"
)
这也是准备好的停止词词库,用于帮助jiebaR更好的统计词频
统计词频
seg <- segment(wordfreqs[,1],work)
seg <- freq(seg) //用于统计词频
seg <- seg[order(-seg[,2]),] // 让它倒序排序
seg <- seg[1:100,c(1,2)] // 限制输出词的数量,只输出100个。
词云图
最后就是用自己选取的图片进行制作词云图了,就是用wordcloud2,然后更换词库就行了。
记得图片要选取黑白尽量分明的,方便R语言