3、数据预处理与降维:从基础到实践

数据预处理与降维:从基础到实践

1. 数据预处理基础

在机器学习中,数据预处理是至关重要的一步,它能确保数据的质量和可用性,为后续的模型训练打下坚实基础。

1.1 处理分类数据

现实世界中的数据集常常包含分类特征,这些特征可分为有序特征和名义特征。有序特征具有可排序性,例如衣服的尺码(XL > L > M);而名义特征则不存在顺序关系,像衣服的颜色。

1.1.1 使用 pandas 进行分类编码

我们可以使用 pandas 创建一个包含分类特征的 DataFrame 示例:

import pandas as pd
df = pd.DataFrame([
    ['green', 'M', 10.1, 'class2'],
    ['red', 'L', 13.5, 'class1'],
    ['blue', 'XL', 15.3, 'class2']
])
df.columns = ['color', 'size', 'price', 'classlabel']
print(df)

此 DataFrame 包含名义特征(颜色)、有序特征(尺码)和数值特征(价格)。

1.1.2 映射有序特征

为确保机器学习算法能正确解释有序特征,我们需将分类字符串值转换为整数。由于没有自动确定特征顺序的便捷函数,我们需手动进行映射:

size_mapping = {'XL': 3, 'L'
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值