load("C:/Users/pc/Documents/毕设/data/rdmTweets.Rdata")
library(NLP)
library(SnowballC)
library(RColorBrewer)
library(wordcloud)
library(tm)
library(twitteR)
library(ggplot2)
rdmTweets[11: 15]
#10.2 Transforming Text
#把推文转换成数据框类型
df <- do.call("rbind", lapply(rdmTweets, as.data.frame))
dim(df)
#构建一个语料库,并将源指定为字符向量
dongCorpus <- Corpus(VectorSource(df$text))
#转换成大写字母
dongCorpus <- tm_map(dongCorpus, tolower)
#去掉标点符号
dongCorpus <- tm_map(dongCorpus, removePunctuation)
#移除数字
dongCorpus <- tm_map(dongCorpus, removeNumbers)
#设置超链接的模式
removeURL <- function(x) gsub("http[[:alnum:]]*", "", x)
#移除超链接
dongCorpus <- tm_map(dongCorpus, removeURL)
#使用英文停词表,并加入“avaliable”和“via”
dongStopwords <- c(stopwords('english'), "availale", "via")
#给停词表加入“big”
dongStopwords <- setdiff(dongStopwords, c("big"))
#移除停词表中的单词
don