数据统计与深度学习：特征工程的统计视角

特征工程的统计方法与应用

原创于 2025-10-31 21:39:21 发布 · 299 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #人工智能

特征工程的统计视角

特征工程是连接原始数据与机器学习模型的核心环节。从统计视角看，其本质是通过数学变换提取数据中的统计规律，为深度学习模型提供信息更密集、结构更优化的输入。以下是关键方向：

1. 数据分布的统计修正

偏态修正：对右偏数据采用对数变换：$ x' = \log(x + \epsilon) $
正态化：Box-Cox变换（需严格正值）：
$$ x'(\lambda) = \begin{cases} \frac{x^\lambda - 1}{\lambda} & \lambda \neq 0 \ \log(x) & \lambda = 0 \end{cases} $$
异常值处理：基于$ 3\sigma $原则或IQR（四分位距）截断：$ \text{下限} = Q1 - 1.5 \times IQR $

2. 特征相关性的统计度量

线性关系：皮尔逊相关系数
$$ \rho_{X,Y} = \frac{\text{cov}(X,Y)}{\sigma_X \sigma_Y} $$
非线性关系：互信息（Mutual Information）
$$ I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log \frac{p(x,y)}{p(x)p(y)} $$
特征重要性筛选：通过卡方检验$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $ 或L1正则化模型

3. 高维特征的统计降维

主成分分析（PCA）：
求解协方差矩阵$ \Sigma $的特征向量：$ \Sigma v = \lambda v $
保留前$ k $个主成分，累计方差贡献率需满足$ \frac{\sum_{i=1}^k \lambda_i}{\sum \lambda_i} > 85% $
因子分析：
观测变量$ X $与隐变量$ F $的关系：$ X = \Lambda F + \epsilon $
其中$ \Lambda $为因子载荷矩阵

4. 时序特征的统计构造

滑动统计量：窗口$ w $内的均值$ \mu_t = \frac{1}{w} \sum_{i=t-w+1}^t x_i $
自相关性：滞后$ k $的自相关系数$ \rho_k = \frac{\text{cov}(X_t, X_{t-k})}{\sigma_{X_t} \sigma_{X_{t-k}}} $
平稳化处理：差分运算$ \nabla x_t = x_t - x_{t-1} $

5. 统计视角的深度学习适配

Batch Normalization：对每层输入进行标准化
$$ \hat{x} = \frac{x - \mu_B}{\sqrt{\sigma_B^2 + \epsilon}}, \quad y = \gamma \hat{x} + \beta $$ 其中$ \mu_B, \sigma_B $为批次统计量
嵌入层统计约束：类别型变量嵌入向量需满足$ |e_i - e_j| \propto \text{类别相似度} $

实践建议：

优先使用可解释的统计变换（如分箱、多项式特征）
监控特征分布偏移：比较训练/预测数据的KL散度$ D_{KL}(P | Q) $
在Transformer等模型中，统计特征可替代部分位置编码功能

通过统计方法构建的特征能显著提升模型鲁棒性——例如金融风控模型中，经Box-Cox变换的收入特征可使AUC提升$ \approx 8% $。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。