阅读宋立恒《AI制胜:机器学习极简入门》第2章:机器学习中的数据预处理

本文介绍了机器学习中数据预处理的重要性,包括数据缺失值处理、标准化、归一化和二值化等方法,并强调了数据预处理对模型准确率的影响。同时,详细阐述了PCA主成分分析的原理,通过实例展示了PCA如何在降维过程中保留数据的主要特征。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


数据预处理是进行数据分析的第一步,如何获取干净的数据是分析效果的前提。如果你想要你的努力获得效果(模型获得更好的预测结果),就必须对数据做预处理。

一、数据预处理的重要性和原则

机器学习人工智能的爱好者,往往在获得数据后,就开始疯狂地想套用一个算法模型,迫不及待地把数据往里面“喂”。当你信心满满地开始运行后,你会看到下面显示一行一行的红色字体,大体意思是这里数字无效,这时候心态就崩溃了。数据科学家在他们的工作中有50%到80%的时间花费在收集和准备不规则数据的这种更为平凡的任务中,然后才能探索有用的价值。

在机器学习中数据是王道,较好的数据经过不同的模型训练后,其预测结果差距不是太大。在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误(如医生的诊断记录)导致有异常点存在,对我们挖掘出有效信息造成了一定的困扰,所以我们需要通过一些方法,尽量提高数据的质量。在机器学习中,数据的质量关乎机器学习任务的成败、直接影响着预测的结果。

那么对于数据的预处理,有如下常用的处理原则和方法。

  • (1)针对数据缺失的问题,我们虽然可以将存在缺失的行直接删除,但这不是一个好办法,还很容易引发问题。因此需要一个更好的解决方案。最常用的方法是,用其所在列的均值来填充缺失。
  • (2)不属于同一量纲,即数据的规格不一样,不能够放在一起比较。
  • (3)对于某些定量数据,其包含的有效信息为区间划分,例如学习成绩,假如只关心“及格”或“不及格”,那么需要将定量的考分
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

酒城译痴无心剑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值