一.异常数据处理
1.拉以达准则(基于3-σ准则)
拉依达准则是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。
这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提(样本>10),当测量次数少的情形用准则剔除粗大误差是不够可靠的。
参考博文:https://blog.youkuaiyun.com/ChenVast/article/details/82790633
https://blog.youkuaiyun.com/pandacsu/article/details/71159463
二.数据离散化
数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。具体可以参照下面这篇博文:数据预处理之数据离散化
三.数据标准化(无量纲化)
1.极差法
参考博文