一、 rJava的环境变量配置和分词代码(网上有具体安装步骤,比较麻烦,我安装了好久了才安装上,我也是好多参考网上还有 朋友帮助才完成的)
1. 下载jre最新版
2. 打开环境变量:控制面板—系统—环境变量 or 我的电脑—属性
a 新增变量“JAVA”,变量值=C:\Program Files\Java\jre6\bin
b PATH=C:\Program Files\Java\jre6\bin\server
加载rJava包和Rwordseg包
代码:
1. 下载jre最新版
2. 打开环境变量:控制面板—系统—环境变量 or 我的电脑—属性
a 新增变量“JAVA”,变量值=C:\Program Files\Java\jre6\bin
b PATH=C:\Program Files\Java\jre6\bin\server
加载rJava包和Rwordseg包
代码:
>install.packages(“rJava”)
>library(rJava)
>install.packages("Rwordseg",repos= "http://R-Forge.R-project.org", type = "source")
>library(Rwordseg)
--可以测试了:
>teststring1 <- "李建督促你将R语言学习到底。"
>word1 <- segmentCN(teststring1)
二、 导入文本、清理文本、词频统计、词云图
library(Rwordseg) #分词的包
#导入数据
sale<-read.csv(file.choose())
neg <- readLines(file.choose(), encoding = 'UTF-8')
data = read.csv("E:/111/wuli.csv",stringsAsFactors=F)
data<-read.csv(file.choose(),stringsAsFactors=F)
#去除数字,英文字符 <