R建模8大步骤_r语言定义模型-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_27056805/article/details/84973199

本文详细介绍了R语言进行数据分析建模的八大步骤：数据加载、数据清洗、数据探索、数据建模、模型诊断、数据预测、预测评估和模型比较。在数据加载部分，提到了read.csv、xlsx包等数据导入方法；数据清洗涉及处理缺失值和数据类型转换；数据探索通过可视化手段初步了解数据关系；数据建模和模型诊断重点讨论了模型构建和线性回归的假设检验；预测和评估环节则对模型性能进行了验证和比较。

整体概述

当我们拿到一堆数据要进行建模预测的时候，往往不知道该怎么处理。尤其是对于学数理统计的同学，往往老师会布置一个大作业，自找数据，自行分析，自行预测。很多时候会一头雾水，不知从何做起。本人也是从这个过程走过，因此这里跟大家分享一下我个人进行数据清洗，分析，建模和预测的经验。本篇文章仅描述一般的过程。后续会根据具体线性回归，分类（KNN,SVM,决策树，随机森林等）实例进行讲解。

数据分析一般可以分为七大部分，包括数据加载，清洗，探索，建模，诊断，预测和评估。以下分别进行讲解。

1.数据加载

数据加载即从本地数据库，txt文件，csv文件，excel文件，RData文件，或者网络上获取数据。主要使用的函数为：
csv文件：read.csv()和read.csv2()函数。前者用于读取小数据量数据（<10000行），后者在读取大数据量数据时有优势。
excel文件：excel文件读取之前需要先安装并加载xlsx包，然后该函数才能够使用。而且该函数需要指定读取excel文件中的第几个表格。参数sheetIndex是从索引1开始，这与python从0开始索引不一样。或者sheetName指定表格名称来选择。两个参数选择一个就可以。

install.packages("xlsx")
library(xlsx)
read.excel("xxx.xlsx",sheetIndex=1,sheetName="sheet1")

RData文件：

#这句是加载该RData文件，但是不会显示里面有什么数据
data=load("xxx.RData")
#str()函数会显示该文件中有哪些数据集
str(data)

text数据：read.table()既可以读取txt文件也可以读取csv文件。

read.table(file)

详细的数据读取函数，参数我会在稍后的文中进行总结。

R建模8大步骤

整体概述

1.数据加载

2.数据清洗