1、文本挖掘
GitHub上的MeCab-Chinese
中文的分词器工具-下载地址
https://github.com/panyang/MeCab-Chinese
参考这篇文章的工具:
http://blog.sina.com.cn/s/blog_54f07aba0101slum.html
这篇包装不上,参考下一篇
https://www.cnblogs.com/zzhzhao/p/5299876.html
http://blog.youkuaiyun.com/luoyexuge/article/details/49176105
library(rJava)
library(Rwordseg)
library(RColorBrewer)
library(wordcloud2)
library(Rwordseg)
installDict("E:\\红楼梦群成员名字词库.scel","hongloumeng2")
installDict("E:\\红楼梦词汇.scel","hongloumeng3")
lecture<-read.csv("E:/《红楼梦》完整版.txt", stringsAsFactors=FALSE,header=FALSE)
class(lecture)
res=lecture[]
#分词+频数统计
words=unlist(lapply(X=res, FUN=segmentCN))
#unlist将list类型的数据,转化为vector
#lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到X中的每个元素。
word=lapply(X=words, FUN=strsplit, " ")
v=table(unlist(word))
#table统计数据的频数
# 降序排序
v=rev(sort(v))
d=data.frame(word =names(v), freq = v) #创建数据框
#过滤掉1个字和词频小于200的记录
d =subset(d, nchar(as.character(d$word))>1 )
d=subset(d, d$freq.Freq>=254)
#输出结果
write.csv(d, file="E:/hongloumengfcresult.csv", row.names=FALSE)
#画出标签云
mydata<-read.csv("E:/hongloumengfcresult.csv",head=TRUE)
mycolors <- brewer.pal(12,"Paired")
windowsFonts(myFont=windowsFon("锐字巅峰粗黑简1.0"))
wordcloud(mydata$word,mydata$freq.Freq,random.order=FALSE,random.color=TRUE,colors=mycolors,family="myFont")