认识波士顿房价数据集

1 基本认识

不管将对数据进行什么样的操作,对数据本身的理解包括对生成数据的业务的理解总是首要的。假设我现在要使用Keras对波士顿房价数据集进行回归,那么我首先要去了解这个数据集是什么样子的。

首先,需要找到数据集的来源,一般在来源网站会有对数据集的描述。

使用bing或者google搜索引擎,将会出现高质量的数据集的可能的来源。

Boston Housing price regression dataseticon-default.png?t=O83Ahttps://keras.io/2.15/api/datasets/boston_housing/其官网的指示文档如下所示:

对于数据集的描述只有其有13个属性,目标值是某个位置房屋价格的中位数。并没有对属性当中的数值做过多的解释,但是做数据分析对数据的理解是十分必要的。所以,我们要对其进行溯源。

lib.stat.cmu.edu/datasets/bostonicon-default.png?t=O83Ahttps://lib.stat.cmu.edu/datasets/boston进入发现描述分为三部分:

1、数据的来源是一篇论文。

2、每列属性值的含义

可以这样理解,作者为了探究房价的影响因素和预测房价,对每个自住房屋进行了特征的收集以便描述和区别每一栋自住房屋。也就是构建了许多特征来映射到自主房屋。即房价=f(特征1,特征2,特征3……)。

可以看到数据集给出的标签的描述是资助房屋的中位数价值,这说明是我们想要预测的变量。同时,中位数说明了其可能是按照区域来划分自住房屋,每个区域平均出一个假象的房屋,搜集描述这个房屋房价的特征,然后去探究特征和房价的映射关系。

前面的是属性值,可以确定这些属性值大多是连续值。明确数据结构之后可能会影响我们后续在数据处理时的处理方法。按照类别分类的属性值有:

CHAS Charles River 虚拟变量(如果区域边界为河流,则为 = 1;否则为 0)
放射状高速公路可达性 RAD 指数

3、数据示例

可以印证,有13个属性列,一个标签列。并且数据结构也和我们预想的一样。

2 函数

这个数据集只有一个函数,参数也不多。

2.1 load_data函数参数

2.2 load_data函数返回

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

踏歌~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值