8、机器学习数据处理与模型选择全流程指南

web99

于 2025-10-06 12:23:12 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战全景解读文章标签：机器学习数据预处理特征缩放

本文链接：https://blog.youkuaiyun.com/web99/article/details/154594425

机器学习实战全景解读专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习数据处理与模型选择全流程指南

1. 数据预处理基础

1.1 稀疏矩阵与类别编码

在处理数据时，我们可能会遇到稀疏矩阵，它大部分元素为零，但使用方式和普通二维数组类似。若要将其转换为密集的 NumPy 数组，可调用 toarray() 方法，示例如下：

>>> housing_cat_1hot.toarray()
array([[1., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1.],
       ...,
       [0., 1., 0., 0., 0.],
       [1., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0.]])

我们还可以通过编码器的 categories_ 实例变量获取类别列表：

>>> cat_encoder.categories_
[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],
       dtype=object)]

当分类属性有大量可能的类别时，独热编码会产生大量输入特征，可能会减慢训练速度并降低性能。此时，可将分类输入替换为与类别相关的有用数值特征，例如用与海洋的距离替换

会员秒杀 ¥9.9 重磅福利

超级会员免费看