59、集成学习:原理、方法与应用

集成学习:原理与应用解析

集成学习:原理、方法与应用

1. 集成学习概述

决策树在训练数据发生扰动时,预测结果可能会有很大变化,属于高方差估计器。为了降低方差,一种简单的方法是对多个模型进行平均,这就是集成学习。集成学习得到的模型形式如下:
[f(y|x) = \frac{1}{|M|} \sum_{m \in M} f_m(y|x)]
其中,(f_m) 是第 (m) 个基模型。集成模型与基模型的偏差相似,但方差更低,通常能提升整体性能。

对于回归模型,平均是一种合理的组合预测结果的方式;而对于分类器,有时采用多数投票法更好(也称为委员会方法)。假设每个基模型是准确率为 (\theta) 的二分类器,且类别 1 是正确类别。设 (Y_m \in {0, 1}) 是第 (m) 个模型的预测结果,(S = \sum_{m = 1}^{M} Y_m) 是类别 1 的投票数。最终预测器定义为多数投票,即当 (S > M/2) 时为类别 1,否则为类别 0。集成模型选择类别 1 的概率为:
[p = Pr(S > M/2) = 1 - B(M/2, M, \theta)]
其中,(B(x, M, \theta)) 是参数为 (M) 和 (\theta) 的二项分布在 (x) 处的累积分布函数。例如,当 (\theta = 0.51) 且 (M = 1000) 时,(p = 0.73);当 (M = 10000) 时,(p = 0.97)。不过,在实际应用中,各预测器的错误可能存在相关性,但只要集成足够多样化的模型,仍能取得较好效果。

1.1 堆叠法

除了使用无权重平均或多数投票法,还可以学习如何组合基模型,具体形式如下:
[f(y

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值