线性代数、矩阵计算与回归建模实战解析
在数据分析和建模领域,处理高维数据时常常会遇到多重共线性等问题,同时如何有效训练和优化模型也是关键。下面将详细介绍相关的处理方法和技术。
1. 高维数据中的多重共线性与特征选择
在高维数据集中,包含大量预测变量的数据很可能存在完全不相关但样本相关性高的变量。例如,生成一个随机高斯 $n × k$ 矩阵时,即使是独立同分布(IID)抽样,也会有较高的特征相关性。这种现象在高维观测数据中更为明显,会带来计算、模型拟合、模型解释和选择显著预测变量等方面的挑战,如函数奇异性和不定的海森矩阵。
针对这个问题,可以采用分治法,根据样本数量 $n$ 和特征数量 $k$ 的关系分为两种情况:
- 当 $n ≥ k$ 时,可以使用方差膨胀因子(VIF)进行参数化求解。
- 当 $n ≫ k$ 时,VIF 不适用,需要采用其他方法:
- 使用降维技术(如 PCA、ICA、FA、SVD、PLSR、t - SNE 等)将问题简化为 $n ≥ k′$,只使用前 $k′$ 个基、函数或方向。
- 计算(基于 Spearman 秩次的)成对相关性(矩阵),进行特征选择,例如选择成对相关性较低的特征。
此外,还有一些特征选择技术:
- Sure Independence Screening(SIS) :基于相关性学习,利用响应变量和给定预测变量之间的样本相关性,将特征维度 $k$ 降低到适度维度 $O(n)$。基本的 SIS 方法通过拟合简单线性模型估计预测变量和响应变量之间的边际线性相关性。非参数独立筛选(NIS)则将基于模型的 SIS 策略扩展到使用非参数模型,为
超级会员免费看
订阅专栏 解锁全文
1411

被折叠的 条评论
为什么被折叠?



