阅读宋立恒《AI制胜：机器学习极简入门》第2章：机器学习中的数据预处理

最新推荐文章于 2025-07-29 13:34:57 发布

酒城译痴无心剑

最新推荐文章于 2025-07-29 13:34:57 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： # AI - 机器学习 - 深度学习文章标签：机器学习数据预处理标准化归一化二值化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/howard2005/article/details/120646117

AI - 机器学习 - 深度学习专栏收录该内容

49 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了机器学习中数据预处理的重要性，包括数据缺失值处理、标准化、归一化和二值化等方法，并强调了数据预处理对模型准确率的影响。同时，详细阐述了PCA主成分分析的原理，通过实例展示了PCA如何在降维过程中保留数据的主要特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、数据预处理的重要性和原则
二、数据预处理方法介绍
三、数据降维

数据预处理是进行数据分析的第一步，如何获取干净的数据是分析效果的前提。如果你想要你的努力获得效果（模型获得更好的预测结果），就必须对数据做预处理。

一、数据预处理的重要性和原则

机器学习人工智能的爱好者，往往在获得数据后，就开始疯狂地想套用一个算法模型，迫不及待地把数据往里面“喂”。当你信心满满地开始运行后，你会看到下面显示一行一行的红色字体，大体意思是这里数字无效，这时候心态就崩溃了。数据科学家在他们的工作中有50%到80%的时间花费在收集和准备不规则数据的这种更为平凡的任务中，然后才能探索有用的价值。

在机器学习中数据是王道，较好的数据经过不同的模型训练后，其预测结果差距不是太大。在真实数据中，我们拿到的数据可能包含了大量的缺失值，可能包含大量的噪音，也可能因为人工录入错误（如医生的诊断记录）导致有异常点存在，对我们挖掘出有效信息造成了一定的困扰，所以我们需要通过一些方法，尽量提高数据的质量。在机器学习中，数据的质量关乎机器学习任务的成败、直接影响着预测的结果。

那么对于数据的预处理，有如下常用的处理原则和方法。

（1）针对数据缺失的问题，我们虽然可以将存在缺失的行直接删除，但这不是一个好办法，还很容易引发问题。因此需要一个更好的解决方案。最常用的方法是，用其所在列的均值来填充缺失。
（2）不属于同一量纲，即数据的规格不一样，不能够放在一起比较。
（3）对于某些定量数据，其包含的有效信息为区间划分，例如学习成绩，假如只关心“及格”或“不及格”，那么需要将定量的考分

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

酒城译痴无心剑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。