新手村:线性回归-实战-波士顿房价预测
前置条件
阅读:新手村:线性回归
了解相关概念
实验目的
- 1. 熟悉机器学习的一般流程
- 2. 掌握基础的数据处理方法
- 3. 理解线性回归算法
教学例子:预测房价(以波士顿房价数据集为例)
本次实验,你将使用真实的波士顿房价数据集建立起一个房价预测模型,并且了解到机器学习中的若干重要概念和评价方法,请通过机器学习建立回归模型,即:
Y= θ 0 + θ 1 × X 1 + θ 2 × X 2 + θ 3 × X 3 + ⋯ + θ 1 3 × X 1 3 θ_0+θ_1×X_1+θ_2×X_2+θ_3×X_3+⋯+θ_13×X_13 θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ13×X13
而需要学习的,就是 θ 0 , θ 1 , θ 2 , ⋯ θ 1 3 θ_0,θ_1,θ_2,⋯θ_13 θ0,θ1,θ2,⋯θ13这14个参数
数据集
波士顿房屋数据集于1978年开始统计,涵盖了麻省波士顿不同郊区房屋14种特征的信息。本数据集共有
506个
样本,每个样本有13个特征
及标签MEDV
特征说明
特征代码 | 描述 |
---|---|
CRIM | 城镇人均犯罪率 |
ZN | 占地面积超过2.5万平方英尺的住宅用地比例 |
INDUS | 城镇非零售业务地区的比例 |
CHAS | 查尔斯河虚拟变量 (= 1 如果土地在河边;否则是0) |
NOX | 一氧化氮浓度(每1000万份) |
RM | 平均每居民房数 |
AGE | 在1940年之前建成的所有者占用单位的比例 |
DIS | 与五个波士顿就业中心的加权距离 |
RAD | 辐射状公路的可达性指数 |
TAX | 每10,000美元的全额物业税率 |
PTRATIO | 城镇师生比例 |
B | 1000(Bk - 0.63)^2 其中 Bk 是城镇的黑人比例 |
LSTAT | 人口中地位较低人群的百分数 |
MEDV | 以1000美元计算的自有住房的中位数 |