数据探索与机器学习数据预处理全解析
1. 相关性系数与非线性关系
相关性系数仅能衡量线性相关性,即“当 x 上升时,y 通常上升/下降”。它可能会完全忽略非线性关系,例如“当 x 趋近于 0 时,y 通常上升”。不同数据集的标准相关性系数示例表明,底行的所有图的相关性系数都为 0,但它们的坐标轴显然并非相互独立,这就是非线性关系的例子。此外,第二行展示了相关性系数等于 1 或 -1 的例子,要注意这与斜率无关。例如,身高的英寸值与英尺值或纳米值的相关性系数为 1。
2. 尝试属性组合
在将数据输入机器学习算法之前,可尝试各种属性组合。例如:
housing["rooms_per_house"] = housing["total_rooms"] / housing["households"]
housing["bedrooms_ratio"] = housing["total_bedrooms"] / housing["total_rooms"]
housing["people_per_house"] = housing["population"] / housing["households"]
然后查看相关矩阵:
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)
结果如下:
| 属性 | 与中位房价
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



