Gradient Boost

最新推荐文章于 2024-11-13 19:53:59 发布

于建民

最新推荐文章于 2024-11-13 19:53:59 发布

阅读量2.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：技术博客文章标签：数据挖掘机器学习 GB

本文链接：https://blog.youkuaiyun.com/yujianmin1990/article/details/48440927

本文深入探讨了Gradient Boost的概念，从参数空间和函数空间的数值优化角度出发，介绍了Gradient Boost的基本流程。文章详细阐述了如何通过梯度下降寻找函数增量，并提供了在最小均方误差下的GB算法框架伪码。最后，文章讨论了模型评估策略的选择，适用于回归和分类问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　对GBDT一直有所耳闻，但是从未深入地了解一下，这次仔细研究了一下Gradient Boost这个东东。

基本知识

　　在正式介绍之前，先普及些基本知识。后面重点介绍Gradient Boost 的思想。
　　参数估计：在参数空间内进行数值优化（以参数作为变量）。
　　函数估计：在函数空间内进行数值优化（以函数作为变量）。
　　模型的含义： $X -F^*(x)-> y$ 其中 $F^*(x)$ 表示由属性到目标变量的最优映射函数，”最优”体现为 $F^*(x)$ 满足样本集 { $x,y$ } 的分布。
　　总体目标抽象为损失函数 $\phi(y, F(x))$ 的期望最小化：
　　 $F^*(x)=arg \underset {F(x)}{min} {E_{y, x}[\phi(y, F(x))]}$
　　Additive Expensions: 对模型函数的拓展
　　 $F(x)=F(x;P)=\sum_{m=0}^M \beta_m h(x; \alpha_m)$
　　其中 $h(x; \alpha_m)$ 表示弱学习器； $\beta_m$ 表示其权重。

数值优化在参数空间内的基本流程

　　选择一个参数化的模型 $F(x;P)$ ，就将函数优化变成了一个参数优化问题。
　　 $P^* = arg\underset{P}{min} { \Phi(P) } = arg \underset{P}{min} E_{y,x}[\phi(y, F(x;P))]$
　　得到最优模型 $F^*(x)= F(x; P^*)$
　　若是采用梯度下降的思想进行参数寻优，则有 $P^*=\sum_{m=0}^M p_m$
　　此处对 $P^*$ 理解为参数初始值与各处梯度的累计。
　　梯度下降+线性搜索
　　当前梯度： $g_m={g_{jm}}=[\frac{\partial \Phi(P)}{\partial P_j}]_{P_{m-1}}$ ，其中 $P_{m-1}=\sum_{i=0}^{m-1}p_i$
　　线性搜索： $\rho_m=arg \underset {\rho}{min} {\phi(P_{m-1}-\rho g_m)}$
　　最速下降向量： $p_m = -\rho_m g_m$