特征工程的统计视角
特征工程是连接原始数据与机器学习模型的核心环节。从统计视角看,其本质是通过数学变换提取数据中的统计规律,为深度学习模型提供信息更密集、结构更优化的输入。以下是关键方向:
1. 数据分布的统计修正
- 偏态修正:对右偏数据采用对数变换:$ x' = \log(x + \epsilon) $
- 正态化:Box-Cox变换(需严格正值):
$$ x'(\lambda) = \begin{cases} \frac{x^\lambda - 1}{\lambda} & \lambda \neq 0 \ \log(x) & \lambda = 0 \end{cases} $$ - 异常值处理:基于$ 3\sigma $原则或IQR(四分位距)截断:$ \text{下限} = Q1 - 1.5 \times IQR $
2. 特征相关性的统计度量
- 线性关系:皮尔逊相关系数
$$ \rho_{X,Y} = \frac{\text{cov}(X,Y)}{\sigma_X \sigma_Y} $$ - 非线性关系:互信息(Mutual Information)
$$ I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} $$ - 特征重要性筛选:通过卡方检验$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $ 或L1正则化模型
3. 高维特征的统计降维
- 主成分分析(PCA):
求解协方差矩阵$ \Sigma $的特征向量:$ \Sigma v = \lambda v $
保留前$ k $个主成分,累计方差贡献率需满足$ \frac{\sum_{i=1}^k \lambda_i}{\sum \lambda_i} > 85% $ - 因子分析:
观测变量$ X $与隐变量$ F $的关系:$ X = \Lambda F + \epsilon $
其中$ \Lambda $为因子载荷矩阵
4. 时序特征的统计构造
- 滑动统计量:窗口$ w $内的均值$ \mu_t = \frac{1}{w} \sum_{i=t-w+1}^t x_i $
- 自相关性:滞后$ k $的自相关系数$ \rho_k = \frac{\text{cov}(X_t, X_{t-k})}{\sigma_{X_t} \sigma_{X_{t-k}}} $
- 平稳化处理:差分运算$ \nabla x_t = x_t - x_{t-1} $
5. 统计视角的深度学习适配
- Batch Normalization:对每层输入进行标准化
$$ \hat{x} = \frac{x - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}, \quad y = \gamma \hat{x} + \beta $$ 其中$ \mu_B, \sigma_B $为批次统计量 - 嵌入层统计约束:类别型变量嵌入向量需满足$ |e_i - e_j| \propto \text{类别相似度} $
实践建议:
- 优先使用可解释的统计变换(如分箱、多项式特征)
- 监控特征分布偏移:比较训练/预测数据的KL散度$ D_{KL}(P | Q) $
- 在Transformer等模型中,统计特征可替代部分位置编码功能
通过统计方法构建的特征能显著提升模型鲁棒性——例如金融风控模型中,经Box-Cox变换的收入特征可使AUC提升$ \approx 8% $。
特征工程的统计方法与应用

被折叠的 条评论
为什么被折叠?



