认识波士顿房价数据集

最新推荐文章于 2025-05-01 14:39:49 发布

踏歌~

最新推荐文章于 2025-05-01 14:39:49 发布

阅读量858

点赞数 13

分类专栏： Python深度学习文章标签： keras 机器学习深度学习 tensorflow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_65259109/article/details/144978152

版权

Python深度学习专栏收录该内容

22 篇文章

订阅专栏

1 基本认识

不管将对数据进行什么样的操作，对数据本身的理解包括对生成数据的业务的理解总是首要的。假设我现在要使用Keras对波士顿房价数据集进行回归，那么我首先要去了解这个数据集是什么样子的。

首先，需要找到数据集的来源，一般在来源网站会有对数据集的描述。

使用bing或者google搜索引擎，将会出现高质量的数据集的可能的来源。

Boston Housing price regression datasethttps://keras.io/2.15/api/datasets/boston_housing/其官网的指示文档如下所示：

对于数据集的描述只有其有13个属性，目标值是某个位置房屋价格的中位数。并没有对属性当中的数值做过多的解释，但是做数据分析对数据的理解是十分必要的。所以，我们要对其进行溯源。

lib.stat.cmu.edu/datasets/bostonhttps://lib.stat.cmu.edu/datasets/boston进入发现描述分为三部分：

1、数据的来源是一篇论文。

2、每列属性值的含义

可以这样理解，作者为了探究房价的影响因素和预测房价，对每个自住房屋进行了特征的收集以便描述和区别每一栋自住房屋。也就是构建了许多特征来映射到自主房屋。即房价=f(特征1，特征2，特征3……)。

可以看到数据集给出的标签的描述是资助房屋的中位数价值，这说明是我们想要预测的变量。同时，中位数说明了其可能是按照区域来划分自住房屋，每个区域平均出一个假象的房屋，搜集描述这个房屋房价的特征，然后去探究特征和房价的映射关系。

前面的是属性值，可以确定这些属性值大多是连续值。明确数据结构之后可能会影响我们后续在数据处理时的处理方法。按照类别分类的属性值有：

CHAS Charles River 虚拟变量（如果区域边界为河流，则为 = 1;否则为 0）

放射状高速公路可达性 RAD 指数

3、数据示例

可以印证，有13个属性列，一个标签列。并且数据结构也和我们预想的一样。

2 函数

这个数据集只有一个函数，参数也不多。

2.1 load_data函数参数

2.2 load_data函数返回

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

踏歌~ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。