R语言可视化作图笔记（5）文本可视化

最新推荐文章于 2024-02-29 22:12:47 发布

原创最新推荐文章于 2024-02-29 22:12:47 发布 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#R #词汇树 #词云 #短语网

R编程同时被 2 个专栏收录

18 篇文章

订阅专栏

R的数据可视化笔记

10 篇文章

订阅专栏

文本可视化（Text Visualization）

词云（Word Cloud）

本例中Five.txt是一个包含对CASIO某一手表的所有五星好评，分别用到了tm，wordcloud，RColorBrewer建立词云

data<-read.table("Five.txt",header=F, sep='\n') #读取文档
library(tm)
library(wordcloud)
library(RColorBrewer)
data$doc_id=1:nrow(data)
colnames(data)[1]<-"text"

#把data中的每一行当成单独的文档
mycorpus <- Corpus(DataframeSource(data)) #生成语料库（Corpus，词汇数据的集合）
mycorpus <- tm_map(mycorpus, removePunctuation)
mycorpus <- tm_map(mycorpus, function(x) removeWords(x, stopwords("english")))
tdm <- TermDocumentMatrix(mycorpus) #生成Term-document矩阵
m <- as.matrix(tdm)

#归并所有行
v <- sort(rowSums(m),decreasing=TRUE) #求得各词的频数
d <- data.frame(word = names(v),freq=v) 
pal <- brewer.pal(6,"Dark2")
pal <- pal[-(1:2)] #生成调色板（palette）
wordcloud(d$word,d$freq,
          scale=c(6,.3), #词大小范围
          min.freq=4,   #最小频率
          max.words=100,  #最多词数
          random.order=F, rot.per=.15, colors=pal, vfont=c("sans serif","plain"))

在这里插入图片描述

短语网（Phrase Nets）

短语网是通过连接词找到其他高频词，例如英文中的am，is， are， was， were，a，the，of 等等。借助一个java小程序 phrase-nets （如果外网上不了，就在这里下载），下图是Five.txt以 am,is,are,was,were 为连接词的短语网（前20高频词）
在这里插入图片描述