特征选择与隐式RELR模型的深入剖析
1. 最可能特征的选择原理
在数据建模的世界里,不确定性和概率是常态。基于杰恩斯原理,由于存在无数符合已知特征历史数据的可能结果,在给定世界的已知约束条件下,我们最多只能做出最可能的判断。预测和解释特征通常也不能确定得知,但我们可以设计出一种方法来选择最可能的特征集。
1.1 特征降维
在高维候选特征集的预测和解释建模中,特征降维是特征选择前的有用步骤。其目的是将数据处理成更易于管理的形式,以提高处理效率和速度,且不会影响最终模型的形式。
在高维问题中,RELR(Regularized Extreme Learning Regression)产生的回归权重参数与t值成正比,t值描述了特征与目标结果的可靠相关性。当特征数量远大于观测数量时,所有特征的正负误差概率趋于相等,RELR误差模型会强制t值和回归权重之间呈直接比例关系。
因此,在所有高维情况下,可在构建模型前使用简单的单变量t值进行特征筛选降维。选择t值绝对值最大的特征子集,这与计算所有特征的完整模型时具有最大回归权重的特征集相同。RELR特征降维能将维度降低到最可能的候选特征集,且在拒绝奇次幂和偶次幂多项式分量时无偏差。对于纵向数据,特征降维也可按无纵向数据的方式进行。
1.2 特征选择
特征降维只是第一步,建模者还需从最可能的特征集中进一步选择能在其他数据样本中实现最可能预测或解释的特征,这就是特征选择。为了进行特征选择,需要使用某种衡量模型可能性的指标来对不同的特征选择进行评分,并选择得分最高的特征集。
在RELR中,有两种对数似然度量可用于指导特征选择:
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



