目录
本实验包含线性回归模型、梯度上升回归、决策树、随机森林、梯度回归树五种模型的创建和比较以及加载!
一、问题描述:
本次实验休士顿房价数据集是一个回归问题,共有506个样本,13个输入变量和1个输出变量。数据集中的每一行数据都是对休士顿周边或城镇房价的情况描述,下面对数据集变量说明下,方便理解数据集变量代表的意义。
数据集各特征介绍:
• CRIM:城镇人均犯罪率。
• ZN:住宅用地超过 25000 sq.ft. 的比例。
• INDUS:城镇非零售商用土地的比例。
• CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。
• NOX:一氧化氮浓度。
• RM:住宅平均房间数。
• AGE:1940 年之前建成的自用房屋比例。
• DIS:到波士顿五个中心区域的加权距离。
• RAD:辐射性公路的接近指数。
• TAX:每 10000 美元的全值财产税率。
• PTRATIO:城镇师生比例。
• B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。
• LSTAT:人口中地位低下者的比例。
• price:自住房的平均房价,以千美元计。
二、机器学习预测模型概述:
1、线性回归分析中,如果只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
2、随机森林回归模型
随机森林回归模型为一种集成学习算法。通过在数据上构建多个模型,集成所有模型的建模结果。大概流程如下:
- 从样本集中使用Bootstrap采样选出n个样本。