机器学习中的集成学习:原理与方法解析
1. 集成学习概述
在机器学习领域,除了常见的学习范式外,还出现了一些准范式,集成学习便是其中之一。集成学习诞生和发展已逾30年,其起源可追溯到可学习性理论的扩展,即强可学习性和弱可学习性。上世纪90年代是集成学习的繁荣期,提出了一些经典方法;2000年代,集成学习与神经网络相结合;2010年代起,集成深度学习成为该领域的主要研究趋势。
2. 集成学习的定义
集成学习是将多个基学习器有机组合形成一个强学习器的方法,其性能超越组合前的任何单个基学习器。基学习器是用于解决分类和回归等机器学习任务的基本模型,选择基学习器时通常会考虑其简单性、可组合性和互补性,以便多个基学习器能相互补充。在集成学习中,基学习器通常被视为弱学习器,集成学习的目的就是整合这些弱学习器。
符号表示如下:
- 设 $X$ 表示输入空间,$Y$ 表示输出空间。
- $S = { (x_i, y_j) | x_i \in X, y_j \in Y }$ 表示训练样本。
- ${h_t(x)}_{t = 1}^{T}$ 表示 $T$ 个基学习器。
- $h(x)$ 表示强学习器,其中 $x \in X$。
3. 组合模式
组合模式包括两个方面:基学习器的组合方式和待组合的基学习器类型。
3.1 并行和顺序组合
- 并行组合 :将 $T$ 个基学习器 ${h_t(x)}_{t = 1}^{T}$ 并行连接,对于常见的机器学习任务,它们可以并行独立处理,然后将每个基学习器的结果集成到一个
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



