数据预处理:构建优质训练数据集
1. 反向映射整数到原始字符串
若要将整数数值转换回原始字符串表示,可定义一个反向映射字典。以下是具体操作:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['size'].map(inv_size_mapping)
2. 编码类别标签
许多机器学习库要求将类别标签编码为整数值。虽然 scikit-learn 中的多数分类估计器会在内部将类别标签转换为整数,但为避免技术故障,将类别标签以整数数组形式提供是很好的做法。以下是编码类别标签的步骤:
- 首先,枚举类别标签,从 0 开始:
import numpy as np
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['classlabel']))}
- 然后,使用映射字典将类别标签转换为整数:
df['classlabel'] = df['classlabel'].map(class_mapping)
- 若要将转换后的类别标签映射回原始字符串表示,可反转映射字典中的键值对:
超级会员免费看
订阅专栏 解锁全文
676

被折叠的 条评论
为什么被折叠?



