29、机器学习中的关键方法与技术

机器学习中的关键方法与技术

1. 变量重要性

变量重要性(Variable Importance,VI)是与模型选择问题密切相关的概念,它是衡量变量在预测响应时相对重要性或贡献的综合指标。在许多机器学习方法中,单个变量可能在模型的不同部分多次发挥作用,因此需要一个单一的分数来表示其整体重要性。以下是几种确定变量重要性的方法:
- 分类与回归树(CART) :在 CART 中,变量重要性反映了使用该变量定义分裂标准在所有使用它作为分裂器的树节点上实现的分类误差的改善。
- 随机排列法 :随机排列给定变量在所有训练样本中的值,然后评估预测准确性的降低。如果变量与响应密切相关,随机排列其值后,预测准确性会显著下降。
- 基于 SHAP 值的方法 :受博弈论中 Shapley 交互指数的启发,通过建立一个加法特征归因模型,将拟合值分解为每个特征的贡献之和,从而在单个观测层面定义每个特征的重要性。

2. 多重测试

多重假设测试问题在统计学中广为人知,它涉及在原假设实际上为真时拒绝原假设的概率(即第一类错误)。在机器学习和数据挖掘应用中,学习算法通常会进行数十或数百次假设检验,因此需要谨慎处理。以下是一些相关概念和方法:
- 假阳性率与假发现率 :假阳性率是原假设为真时拒绝原假设的概率;假发现率(FDR)是在检验拒绝原假设的情况下,原假设为真的概率。
- Bonferroni 程序 :一种经典的方法,用于防止任何假阳性结果,但随着检验假设数量的增加,拒

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值