机器学习数据预处理全流程解析
1. 特征组合与相关性分析
在处理数据时,我们可以通过组合现有特征来创建新的特征,这有助于挖掘数据中的潜在信息。例如,我们可以使用以下代码创建新的特征:
housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"]=housing["population"]/housing["households"]
创建新特征后,我们可以查看相关矩阵,以了解这些新特征与目标值(中位数房价)之间的相关性:
corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)
结果显示,新的 bedrooms_per_room 属性与中位数房价的相关性比总房间数或卧室数更强。这表明卧室与房间比例较低的房屋往往更昂贵。此外,每户的房间数也比地区的总房间数更有信息价值,显然房屋越大,价格越贵。
这个探索过程不需要绝对全面,关键是要快速获得有助于构建第一个合理原型的见解。这是一个迭代的过程,一旦原
机器学习数据预处理全解析
超级会员免费看
订阅专栏 解锁全文
1780

被折叠的 条评论
为什么被折叠?



