当我们拿到一堆数据要进行建模预测的时候,往往不知道该怎么处理。尤其是对于学数理统计的同学,往往老师会布置一个大作业,自找数据,自行分析,自行预测。很多时候会一头雾水,不知从何做起。本人也是从这个过程走过,因此这里跟大家分享一下我个人进行数据清洗,分析,建模和预测的经验。本篇文章仅描述一般的过程。后续会根据具体线性回归,分类(KNN,SVM,决策树,随机森林等)实例进行讲解。
数据分析一般可以分为七大部分,包括数据加载,清洗,探索,建模,诊断,预测和评估。以下分别进行讲解。
1.数据加载
数据加载即从本地数据库,txt文件,csv文件,excel文件,RData文件,或者网络上获取数据。主要使用的函数为:
csv文件:read.csv()和read.csv2()函数。前者用于读取小数据量数据(<10000行),后者在读取大数据量数据时有优势。
excel文件:excel文件读取之前需要先安装并加载xlsx包,然后该函数才能够使用。而且该函数需要指定读取excel文件中的第几个表格。参数sheetIndex是从索引1开始,这与python从0开始索引不一样。或者sheetName指定表格名称来选择。两个参数选择一个就可以。
install.packages("xlsx")
library(xlsx)
read.excel("xxx.xlsx",sheetIndex=1,sheetName="sheet1")
RData文件:
#这句是加载该RData文件,但是不会显示里面有什么数据
data=load("xxx.RData")
#str()函数会显示该文件中有哪些数据集
str(data)
text数据:read.table()既可以读取txt文件也可以读取csv文件。
read.table(file)
详细的数据读取函数,参数我会在稍后的文中进行总结。