wordcloud（词云）

最新推荐文章于 2024-07-08 19:20:42 发布

泥鳅812

最新推荐文章于 2024-07-08 19:20:42 发布

阅读量1.7k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： R 文章标签： R

本文链接：https://blog.youkuaiyun.com/sinat_20174131/article/details/50299265

R 专栏收录该内容

12 篇文章

订阅专栏

本文介绍如何利用R语言中的jiebaR包进行中文分词，并通过plyr等包统计词频，最终生成词云。文章还提供了一些实用技巧，如处理转义字符及寻找第三方词云生成工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.分词

当今在R界最流行的中文分词包莫过于jiebaR了，有人用segmentCN，问题重重。

jiebaR分词后的词性worker=(“tag”),tagger<=”words“,即可展示分词后词的词性。

tips:

\t \r \n都是转义字符，空格就是单纯的空格，输入时可以输入空格
\t 的意思是横向跳到下一制表符位置
\r 的意思是回车
\n 的意思是回车换行

2.频数

其实这是很重要的一步，没有这一步，Wordcloud只能做梦了。我的方法里面没有建立频数数据框，方便了但数据框有时候用来分析更有用，所以

tips:

library(plyr)
table_seg<-count(seg) 数据框的话，后面可以使用table_seg[,1],table_seg[,2]
但是我用的时候有bug，缓存的table_seg在后面不能引用，说是找不到

3.云词

##windows
library(jiebaR) 
library(jiebaRD)
library(plyr)
library(RColorBrewer)
library(wordcloud)

f<-scan('F:\\huaqiangu_sense.txt',sep='\n',what='',encoding="cp936")##what为数据类型
seg1<-qseg[f]
seg2<-seg1[nchar(seg1)>1]

seg<-table(seg2)
colors=brewer.pal(8,"Dark2")
wordcloud(names(seg),seg,colors=rainbow(length(names(seg))),random.order=F,random.color=F,ordered.colors=T)