11、构建优质训练数据集：数据预处理

最新推荐文章于 2025-11-14 03:34:27 发布

algae

最新推荐文章于 2025-11-14 03:34:27 发布

阅读量4

点赞数

CC 4.0 BY-SA版权

分类专栏： Python机器学习实战精讲文章标签：数据预处理数据集划分特征缩放

本文链接：https://blog.youkuaiyun.com/algae/article/details/155049278

Python机器学习实战精讲专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

构建优质训练数据集：数据预处理

1. 数据集划分

在机器学习中，将数据集划分为训练集和测试集是非常重要的步骤。这有助于我们在模型应用到实际场景之前，对其进行无偏的性能评估。下面我们以 Wine 数据集为例，详细介绍数据集划分的过程。

1.1 序数特征编码

对于序数特征，如果不确定其类别之间的数值差异，或者两个序数之间的差异未定义，可以使用阈值编码（0/1 值）进行编码。例如，对于特征“size”，取值为 M、L 和 XL，我们可以将其拆分为两个新特征“x > M”和“x > L”。以下是具体的代码实现：

import pandas as pd

df = pd.DataFrame([['green', 'M', 10.1, 'class2'],
                   ['red', 'L', 13.5, 'class1'],
                   ['blue', 'XL', 15.3, 'class2']])
df.columns = ['color', 'size', 'price', 'classlabel']

df['x > M'] = df['size'].apply(lambda x: 1 if x in {'L', 'XL'} else 0)
df['x > L'] = df['size'].apply(lambda x: 1 if x == 'XL' else 0)
del df['size']
print(df)