8、机器学习数据预处理全流程解析

机器学习数据预处理全解析

机器学习数据预处理全流程解析

1. 特征组合与相关性分析

在处理数据时,我们可以通过组合现有特征来创建新的特征,这有助于挖掘数据中的潜在信息。例如,我们可以使用以下代码创建新的特征:

housing["rooms_per_household"] = housing["total_rooms"]/housing["households"]
housing["bedrooms_per_room"] = housing["total_bedrooms"]/housing["total_rooms"]
housing["population_per_household"]=housing["population"]/housing["households"]

创建新特征后,我们可以查看相关矩阵,以了解这些新特征与目标值(中位数房价)之间的相关性:

corr_matrix = housing.corr()
corr_matrix["median_house_value"].sort_values(ascending=False)

结果显示,新的 bedrooms_per_room 属性与中位数房价的相关性比总房间数或卧室数更强。这表明卧室与房间比例较低的房屋往往更昂贵。此外,每户的房间数也比地区的总房间数更有信息价值,显然房屋越大,价格越贵。

这个探索过程不需要绝对全面,关键是要快速获得有助于构建第一个合理原型的见解。这是一个迭代的过程,一旦原

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值