文章目录
数据预处理是进行数据分析的第一步,如何获取干净的数据是分析效果的前提。如果你想要你的努力获得效果(模型获得更好的预测结果),就必须对数据做预处理。
一、数据预处理的重要性和原则
机器学习人工智能的爱好者,往往在获得数据后,就开始疯狂地想套用一个算法模型,迫不及待地把数据往里面“喂”。当你信心满满地开始运行后,你会看到下面显示一行一行的红色字体,大体意思是这里数字无效,这时候心态就崩溃了。数据科学家在他们的工作中有50%到80%的时间花费在收集和准备不规则数据的这种更为平凡的任务中,然后才能探索有用的价值。
在机器学习中数据是王道,较好的数据经过不同的模型训练后,其预测结果差距不是太大。在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误(如医生的诊断记录)导致有异常点存在,对我们挖掘出有效信息造成了一定的困扰,所以我们需要通过一些方法,尽量提高数据的质量。在机器学习中,数据的质量关乎机器学习任务的成败、直接影响着预测的结果。
那么对于数据的预处理,有如下常用的处理原则和方法。
- (1)针对数据缺失的问题,我们虽然可以将存在缺失的行直接删除,但这不是一个好办法,还很容易引发问题。因此需要一个更好的解决方案。最常用的方法是,用其所在列的均值来填充缺失。
- (2)不属于同一量纲,即数据的规格不一样,不能够放在一起比较。
- (3)对于某些定量数据,其包含的有效信息为区间划分,例如学习成绩,假如只关心“及格”或“不及格”,那么需要将定量的考分