8、数据探索与机器学习数据预处理全解析

数据探索与机器学习数据预处理全解析

1. 相关性系数与非线性关系

相关性系数仅能衡量线性相关性,即“当 x 上升时,y 通常上升/下降”。它可能会完全忽略非线性关系,例如“当 x 趋近于 0 时,y 通常上升”。不同数据集的标准相关性系数示例表明,底行的所有图的相关性系数都为 0,但它们的坐标轴显然并非相互独立,这就是非线性关系的例子。此外,第二行展示了相关性系数等于 1 或 -1 的例子,要注意这与斜率无关。例如,身高的英寸值与英尺值或纳米值的相关性系数为 1。

2. 尝试属性组合

在将数据输入机器学习算法之前,可尝试各种属性组合。例如:

housing["rooms_per_house"] = housing["total_rooms"] / housing["households"]
housing["bedrooms_ratio"] = housing["total_bedrooms"] / housing["total_rooms"]
housing["people_per_house"] = housing["population"] / housing["households"]

然后查看相关矩阵:

corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

结果如下:
| 属性 | 与中位房价

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值