一. 去极值
因子数据中过大或过小的值会影响分析结果,特别是在回归时,离群值会严重影响因子和收益率之间的相关性估计结果。
因子去极值的处理方法:
- 确定上下限
- 将上下限外的数据修改为上下限值
常见的去极值方法有三种,分别是MAD法,3σ\sigmaσ法,百分位法
1. MAD法
处理步骤:
- 找出所有因子的中位数FmedianF_{median}Fmedian
- 得到每个因子与中位数的绝对偏差值∣Fi−Fmedian∣|F_i - F_{median}|∣Fi−Fmedian∣
- 得到绝对偏差值的中位数MADMADMAD
- 确定阈值参数nnn,对超出范围[Fmedian−n∗MAD,Fmedian+n∗MAD][F_{median} - n * MAD, F_{median} + n * MAD][Fmedian−n∗MAD,F