前言
我真的超爱R语言,原因之一就是R有许多已经写好、“开箱即用”的程序包可以直接拿来用;要知道,程序包减少了多少工作量。当然,其他语言也有类似的包,但是貌似没那么多、没那么细。这一期咱就要用jiebaR包、sqldf包和wordcloud2包完成中文文本的分词、词频统计与绘制词云图的工作。首先设置工作目录:可以通过R-Gui的“文件-改变工作目录”菜单完成,也可以通过以下代码;设置工作目录的意义是,你的所有数据和结果都在该目录下面,找文件时候就不会慌乱:
# 设置工作目录
setwd("D://text_analysis")
中文分词:jiebaR包
注意1:jiebaR包依赖于jiebaRD包,所以先要安装jiebaRD包;中文分词包还有Rwordseg包、tmcn包等,这里不做介绍,读者可以自行探索:
# 安装jiebaRD包并调用
install.packages("jiebaRD")