GBDT推导

给定样本集合\(\{(x_i,y_i)|i=1,\cdots,N\}\),对于分类或者回归有不同的损失函数,假设在某个样本\(i\)上的损失函数为

$$L(y_i,F(x_i))$$

其中F是学习到的决策函数。

在GBDT中F是一簇函数的加权和,即

$$F=\sum_{i=1}^m \gamma_i f_i$$

对于所有的样本,gbdt的损失函数为

$$\sum_{i=1}^N L(y_i,F(x_i))$$

记\(F_j = \sum_{i=1}^j \gamma_j f_j\),采用贪心的策略

$$F_j = F_{j - 1} + \mathop{argmin}_{f_j}\sum_{i=1}^N L(y_i,F_{j-1}(x_i) + f_j(x_i))$$

借助梯度下降的思想,对后面一项进行一阶泰勒展开

$$\sum_{i=1}^N L(y_i,F_{j-1}(x_i) + f_j(x_i)) \approx \sum_{i=1}^N L(y_i,F_{j-1}(x_i))  + \sum_{i=1}^N g_i f_j(x_i)$$

则可取

$$f_j(x_i) = -\gamma_j g_i$$

因此我们可以通过用CART来先拟合\(g_i\)再通过线性搜索得到\(\gamma_j\),记拟合得到的基函数为\(g_i(x_i)\)。

$$\gamma_j = \mathop{argmin}_{\gamma_j}\sum_{i=1}^N L(y_i,F_{j-1}(x_i) - \gamma_j g_i(x_i))$$

由于在建立CART的时候每个样本都被映射到了一个固定的叶子节点,可以在每个叶子节点取最优从而得到叶子节点的取值,对于叶子节点\(m\)所对应的样本集\(R_{jm}\)

$$\gamma_{jm}=\mathop{argmin}_{\gamma_{jm}}\sum_{x_i\in R_{jm}} L(y_i,F_{j-1}(x_i) + \gamma)$$

在防止过拟合方面一般采用控制叶子节点的数目,控制树的深度,每一步对样本进行随机采样,使用衰减因子降低每一棵树的影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值