数据再加工也是一门艺术,通过上面的提取,我们有了原始的数据,但是数据之间的关系通常分散在多个数据表中,需要我们进行数据再加工,将相关联的信息提取到同一个层次上,然后再进行继续分析。
- Dimensionality & Numerosity Reduction 维度与数值归约
- Normalization 正态化
- Data Scrubbing 数据清理
- Handling Missing Values 处理丢失的值
- Unbiased Estimators 无偏估计量
- Binning Sparse Values 分级稀疏值
- Feature Extraction 特征提取
- Denoising 去噪
- Sampling 抽样
- Stratified Sampling 分层抽样
- Principal Component Analysis 主成分分析
所以编写处理程序的时候,不是通常的越早抛出错误,越早退出就好,而是要尽可能的处理,将所有的异常情况、数据,用某些方式记录下来,待后续处理。