1.分词
当今在R界最流行的中文分词包莫过于jiebaR了,有人用segmentCN,问题重重。
jiebaR分词后的词性worker=(“tag”),tagger<=”words“,即可展示分词后词的词性。
tips:
- \t \r \n都是转义字符,空格就是单纯的空格,输入时可以输入空格
- \t 的意思是 横向跳到下一制表符位置
- \r 的意思是 回车
- \n 的意思是回车换行
2.频数
其实这是很重要的一步,没有这一步,Wordcloud只能做梦了。我的方法里面没有建立频数数据框,方便了但数据框有时候用来分析更有用,所以
tips:
- library(plyr)
- table_seg<-count(seg) 数据框的话,后面可以使用table_seg[,1],table_seg[,2]
- 但是我用的时候有bug,缓存的table_seg在后面不能引用,说是找不到
3.云词
library(jiebaR)
library(jiebaRD)
library(plyr)
library(RColorBrewer)
library(wordcloud)
f<-scan('F:\\huaqiangu_sense.txt',sep='\n',what='',encoding="cp936")
seg1<-qseg[f]
seg2<-seg1[nchar(seg1)>1]
seg<-table(seg2)
colors=brewer.pal(8,"Dark2")
wordcloud(names(seg),seg,colors=rainbow(length(names(seg))),random.order=F,random.color=F,ordered.colors=T)
最后的云词展示:
tips:
- 想不想有好看、花哨的云词? 跨网找云词成像制作工具。
- 他的名字叫:TagxeDo 。