R 语言中的数据可视化与特征工程
1. 数据可视化
1.1 词云图
词云图是一种将单词频率与单词大小相关联的可视化方式。单词出现的频率越高,其在词云图中的显示尺寸就越大。通过词云图,我们可以快速识别文本数据中最突出的主题。
以下是创建词云图的具体步骤:
1. 加载文本文件:
job_desc <- readLines("Dataset/wordcloud.txt")
- 加载必要的库:
library(tm)
library(SnowballC)
library(wordcloud)
- 对文本数据进行预处理:
jeopCorpus <- Corpus(VectorSource(job_desc))
jeopCorpus <- tm_map(jeopCorpus, PlainTextDocument)
jeopCorpus <- tm_map(jeopCorpus, removePunctuation)
jeopCorpus <- tm_map(jeopCorpus, removeWords, (c("Data", "data", "Experi", "work", "develop", "use", "will", "can", "you", "busi", s