数据挖掘中特征发现与特征提取的数学原理

好的,我将深入研究数据挖掘中特征发现与特征提取的数学原理,涵盖统计学基础、特征工程的数学方法、以及在机器学习和深度学习中的应用。

我会整理相关数学公式和理论,包括主成分分析(PCA)、独立成分分析(ICA)、线性判别分析(LDA)、信息增益、互信息、方差分析等统计方法,并结合金融量化交易的实际应用,确保内容既有理论深度,又能落地实践。

完成后,我会通知您!

1. 统计学基础:描述性统计、方差分析、相关性与信息理论
在特征工程中,统计学方法提供了基础工具来理解数据分布和变量关系,从而指导特征的发现与选择。

  • 描述性统计与方差(Variance):描述性统计指标(如均值、标准差、偏度、峰度等)刻画了特征的数据分布形态,有助于发现异常值和数据尺度差异。例如,方差衡量数据的离散程度,可用来评估特征是否具有辨别力。方差分析(ANOVA)进一步用于比较多个组的均值差异是否显著。当特征为类别时,可通过单因素ANOVA检验不同类别的目标均值是否存在显著差异,从而判断该特征对区分目标的重要性。ANOVA 的F检验统计量定义为组间方差与组内方差之比,如果某特征按目标分类产生显著不同的均值,其F值会较大,p值较小(低于显著性水平),表示该特征对区分目标有统计学显著性。

  • 皮尔逊相关系数(Pearson Correlation):相关系数衡量两个变量间的线性相关程度,取值范围[-1,1]。在特征工程中,皮尔逊相关系数常用于筛选与目标变量强相关的特征,或检测特征之间的多重共线性。其计算公式为  r X Y = Cov ( X , Y ) σ X σ Y r_{XY}=\frac{\text{Cov}(X,Y)}{\sigma_X\sigma_Y} rXY=σXσYCov(X,Y),反映特征X与Y线性关系的强弱。绝对值接近1表示强相关(正相关或负相关),接近0表示线性独立。需要注意相关不代表因果,但高相关的特征往往对预测有用。然而若两个特征之间相关性极高(例如 ∣ r ∣ > 0.9 |r|>0.9 r>0.9),则可能冗余,可酌情删除其一以减少共线性。

  • 熵(Entropy)与互信息(Mutual Information):熵是信息的不确定性度量,定义为  H ( X ) = − ∑ x p ( x ) log ⁡ p ( x ) H(X) = -\sum_{x} p(x)\log p(x) H(X)=xp(x)logp(x)。熵越大,变量越不确定。互信息衡量两个变量之间信息的共享程度,公式为  I ( X ; Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y) = H(X)+H(Y) - H(X,Y) I(X;Y)=H(X)+H(Y)H(X,Y)。互信息数值越大,表示知道一个变量可以更大程度地减少对另一个变量的不确定性 (Mutual Information - Kaggle)。在特征选择中,我们可计算特征与目标之间的互信息,互信息高的特征说明包含较多有关目标的信息 (Mutual Information - Kaggle)。例如,对于分类问题,计算每个候选特征与类别标签的互信息值,选择互信息最高的若干特征作为备选。信息增益(Information Gain)是互信息在决策树中的应用,定义为划分数据集前后的熵差: I G ( D , A ) = H ( D ) − H ( D ∣ A ) \mathrm{IG}(D,A)=H(D)-H(D\mid A) IG(D,A)=H(D)H(DA) (An Incremental Majority Voting approach for Intrusion Detection …)。信息增益大的特征在决策树中优先作为分裂节点,因为它最大程度减少了数据的不确定性 (An Incremental Majority Voting approach for Intrusion Detection …)。熵和互信息属于非参数方法,对捕捉非线性关系特别有用。

2. 特征选择的数学方法

特征选择旨在从原始特征集中挑选出最有用的子集,以提高模型的性能和可解释性。主要有基于线性代数、统计检验和机器学习的多种方法:

  • 线性代数方法

    • 主成分分析(PCA):PCA是一种无监督线性降维方法,通过正交线性变换将原始特征映射到新的特征子空间。PCA的数学原理是对数据的协方差矩阵做特征分解,找到其特征向量和特征值。特征向量(主成分)对应数据最大的方差方向,特征值则表示沿该方向的方差大小 (Principal Component Analysis) (Principal Component Analysis)。通过选择最大 k k k个特征值对应的特征向量作为投影基底,就构造了一个保留最多信息的 k k k维子空间 (Principal Component Analysis)。公式上,第一个主成分 w 1 \mathbf{w}_1 w1是使得方差最大化的单位向量: w 1 = arg ⁡ max ⁡ ∣ ∣ w ∣ ∣ = 1 V a r ( w T X ) \mathbf{w}_1=\arg\max_{||\mathbf{w}||=1} \mathrm{Var}(\mathbf{w}^T X) w1=argmax∣∣w∣∣=1Var(wTX)。这一优化可转换为协方差矩阵 Σ \Sigma Σ的特征值问题: Σ w = λ w \Sigma \mathbf{w} = \lambda \mathbf{w} Σw=λw,解的 w \mathbf{w} w即特征向量。PCA找到的主成分彼此正交、不相关,常用于降维和去除共线性 (Principal Component Analysis)。PCA本质上忽略了样本的类别信息,只关注数据整体分布的方差结构 (Principal Component Analysis)。在金融领域,PCA常用来提取整体市场因子:例如对资产收益率矩阵做PCA,第一主成分常对应“市场因子”,其特征值大小表示解释的方差比例(信息量)。

    • 独立成分分析(ICA):ICA也是线性降维方法,但与PCA最大化方差不同,ICA追求分离出统计上彼此独立的信号成分。数学上,ICA假设观测数据 x \mathbf{x} x是若干独立源信号 s \mathbf{s} s通过线性混合得到: x = A s \mathbf{x}=A\mathbf{s} x=As,ICA试图求出解混矩阵 W ≈ A − 1 W\approx A^{-1} WA1使得 u = W x \mathbf{u}=W\mathbf{x} u=Wx成为彼此独立的成分。由于仅凭二阶统计量(协方差)无法度量高阶独立性,ICA利用非高斯性作为独立的判据(中心极限定理表明混合信号趋向于高斯分布,而源信号若明显偏离高斯则更可能相互独立)。常用方法包括最大化峭度(kurtosis)或熵的逼近(如负熵)。总之,ICA通过优化使得提取的分量彼此独立且尽可能非高斯 (
      Independent component analysis: recent advances - PMC
      )。与PCA相比,ICA能分离出隐藏因素(例如语音信号分离中的不同说话人信号)。在特征工程中,ICA可用于金融数据的因子分解,将资产收益拆解为独立因子,有助于风险因子的提取。如果独立成分对应某种市场异常(如某交易策略收益),则可将其作为交易因子。

    • 线性判别分析(LDA):LDA是一种有监督的降维与特征选择方法,目标是投影到一条直线(或低维子空间)上使得不同类别之间的均值差异相对于类内方差最大 (Linear Discriminant Analysis (LDA), Maximum Class Separation!) (8.3 Fisher’s linear discriminant rule | Multivariate Statistics)。以二分类为例,Fisher判别分析定义投影方向 w \mathbf{w} w优化准则: J ( w ) = w T S B w w T S W w J(\mathbf{w}) = \frac{\mathbf{w}^T S_B \mathbf{w}}{\mathbf{w}^T S_W \mathbf{w}} J(w)=wTSWwwTSBw,其中 S B S_B SB是类别间散布矩阵, S W S_W SW是类别内散布矩阵。最大化该比值可通过广义特征值问题求解: S W − 1 S B w = λ w S_W^{-1}S_B\mathbf{w}=\lambda \mathbf{w} SW1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值