数据样本抽样
样本具有代表性(比例保持一致)
样本比例平衡以及样本不平衡时如何处理
尽量使用全量数据Hadoop spark
1.异常值(空值)处理
1.识别异常值和重复值
Pandas:isnull()/duplicated
2.直接丢弃
Pandas:drop()/dropna()/drop_duplicated()
3.异常值(空值)处理
当是否有异常当作一个新的属性,代替原值
Pandas:fillna()
4.集中值指代
Pandas:fillna()
5.边界值指代
Pandas:fillna()
6.差值
Pandas:interpolate()–Series
2.特征与处理–标注(Label)
反应目的的,不容易获得的,我们关注的,和其他数据相关的属性。
特征选择
剔除与标注不相关或者冗余的特征
1.数据规约的思路之一(另一个思路为抽样)
特征选择(之前有讲过)
2.包裹思想(RFE算法)
嵌入思想
特征变换
对值化,离散化,数据平滑,归一化(标准化),数值化,正规化