数据预处理与降维:从基础到实践
1. 数据预处理基础
在机器学习中,数据预处理是至关重要的一步,它能确保数据的质量和可用性,为后续的模型训练打下坚实基础。
1.1 处理分类数据
现实世界中的数据集常常包含分类特征,这些特征可分为有序特征和名义特征。有序特征具有可排序性,例如衣服的尺码(XL > L > M);而名义特征则不存在顺序关系,像衣服的颜色。
1.1.1 使用 pandas 进行分类编码
我们可以使用 pandas 创建一个包含分类特征的 DataFrame 示例:
import pandas as pd
df = pd.DataFrame([
['green', 'M', 10.1, 'class2'],
['red', 'L', 13.5, 'class1'],
['blue', 'XL', 15.3, 'class2']
])
df.columns = ['color', 'size', 'price', 'classlabel']
print(df)
此 DataFrame 包含名义特征(颜色)、有序特征(尺码)和数值特征(价格)。
1.1.2 映射有序特征
为确保机器学习算法能正确解释有序特征,我们需将分类字符串值转换为整数。由于没有自动确定特征顺序的便捷函数,我们需手动进行映射:
size_mapping = {'XL': 3, 'L'
超级会员免费看
订阅专栏 解锁全文
3705

被折叠的 条评论
为什么被折叠?



