机器学习中的关键方法与技术
1. 变量重要性
变量重要性(Variable Importance,VI)是与模型选择问题密切相关的概念,它是衡量变量在预测响应时相对重要性或贡献的综合指标。在许多机器学习方法中,单个变量可能在模型的不同部分多次发挥作用,因此需要一个单一的分数来表示其整体重要性。以下是几种确定变量重要性的方法:
- 分类与回归树(CART) :在 CART 中,变量重要性反映了使用该变量定义分裂标准在所有使用它作为分裂器的树节点上实现的分类误差的改善。
- 随机排列法 :随机排列给定变量在所有训练样本中的值,然后评估预测准确性的降低。如果变量与响应密切相关,随机排列其值后,预测准确性会显著下降。
- 基于 SHAP 值的方法 :受博弈论中 Shapley 交互指数的启发,通过建立一个加法特征归因模型,将拟合值分解为每个特征的贡献之和,从而在单个观测层面定义每个特征的重要性。
2. 多重测试
多重假设测试问题在统计学中广为人知,它涉及在原假设实际上为真时拒绝原假设的概率(即第一类错误)。在机器学习和数据挖掘应用中,学习算法通常会进行数十或数百次假设检验,因此需要谨慎处理。以下是一些相关概念和方法:
- 假阳性率与假发现率 :假阳性率是原假设为真时拒绝原假设的概率;假发现率(FDR)是在检验拒绝原假设的情况下,原假设为真的概率。
- Bonferroni 程序 :一种经典的方法,用于防止任何假阳性结果,但随着检验假设数量的增加,拒
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



