数据探索与预处理指南
1. 数据探索
在分析中位数收入与中位数房价的关系时,通过绘制的图表能发现一些重要信息。首先,两者的相关性很强,能明显看到上升趋势,且数据点分布不太分散。其次,之前注意到的房价上限在图中表现为一条位于 50 万美元的水平线。此外,还能看到一些不太明显的直线,如 45 万美元、35 万美元、28 万美元左右的水平线等。为防止算法学习到这些数据的异常特征,可尝试移除对应的区域数据。
在探索数据过程中,还可以尝试进行属性组合。例如,一个区域的房间总数如果不结合家庭数量来考虑,其作用不大,更有意义的是每户的房间数。同理,卧室总数单独来看也没太大价值,与房间总数对比会更有意义。此外,每户的人口数也是一个值得关注的属性组合。以下是创建这些新属性的代码:
housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"]=housing["population"]/housing["households"]
再次查看相关矩阵:
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(as
超级会员免费看
订阅专栏 解锁全文
520

被折叠的 条评论
为什么被折叠?



