7、机器学习数据处理与探索指南

机器学习数据处理与探索指南

1. 数据初步观察

在查看数据的直方图时,我们能发现一些关键信息:
- 收入中位数属性 :该属性并非以美元为单位。经数据收集团队确认,数据已被缩放,较高的收入中位数上限为 15(实际是 15.0001),较低的为 0.5(实际是 0.4999),这些数字大致代表数万美元,例如 3 约为 30,000 美元。在机器学习中处理预处理后的属性很常见,不过我们需要了解数据的计算方式。
- 房屋中位数年龄和房屋价值中位数 :这两个属性也有上限。房屋价值中位数是目标属性,这可能是个严重问题,因为机器学习算法可能会认为价格不会超过这个上限。我们需要与客户团队沟通,确认是否有影响。若他们需要对超过 500,000 美元的价格进行精确预测,有两个选择:
- 收集标签被设上限的区域的准确标签。
- 从训练集和测试集中移除这些区域,避免系统因预测超过 500,000 美元的值而被低估。
- 属性尺度差异 :这些属性的尺度差异很大,后续会探讨特征缩放来解决这个问题。
- 直方图右偏 :许多直方图右偏,即中位数右侧延伸得比左侧远,这可能使一些机器学习算法难以检测模式,后续会尝试转换这些属性以获得更对称的钟形分布。

2. 创建测试集

在深入研究数据前,我们需要创建一个测试集并搁置,避免查看,防止数据窥探偏差。创建测试集的方法如下:
- 随机抽样 :理论上,随机选取部分实例作为测试集,通常为数据集的 20%(大数据集可更少

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值