DBDT 基于不同损失函数的算法推导细节

最新推荐文章于 2025-01-24 15:33:01 发布

遇见更好的自己

最新推荐文章于 2025-01-24 15:33:01 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/yc1203968305/article/details/78312166

机器学习专栏收录该内容

42 篇文章

订阅专栏

本文详细解析了梯度提升算法的工作原理，包括算法流程、关键步骤，并针对二元分类、多元分类及回归任务展示了如何计算残差及估计叶子节点值。

Freidman提出了梯度提升算法，该方法是利用最速下降法的近似方法，其关键是利用损失函数的负梯度在当前模型的值

- [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

$-[{\partial L(y,f(x_i)) \over \partial f(x_i)}]_{f(x) = f_{m-1}(x)}$

作为回归问题算法中的残差的近似值，拟合一个回归模型。

其算法流程如下：
1. $F_0(x) = argmin_\rho \sum _{i=1}^N L(y_i, \rho)$
2. For $m = 1$ to $M$ do:
3. $\qquad \tilde y_i = -[{\partial L(y,F(x_i)) \over \partial F(x_i)}]_{F(x) = F_{m-1}(x)}, i = 1, N$
4. $\qquad a_m = argmin_{a,\beta}\sum_{i=1}^N[\tilde y_i - \beta h(x_i; a)]^2$
5. $\qquad \rho_m = argmin_\rho \sum_{i=1}^N L(y_i, F_{m-1}(x_i) + \rho h(x_i; a_m))$
6. $\qquad F_m(x) = F_{m-1}(x) + \rho_m h(x;a_m)$
7. endFor
endAlgorighm

其中 $h(x_i;a_m)$ 表示基本分类器（weak learner or base learner），4中 $a_m$ 表示拟合负梯度能力最好的分类器参数
负梯度只是表示下降的方向，但是下降多少没有确定，5中 $\rho_m$ 可以认为是下降最快的步长，可以让Loss最小，可以用线性搜索的方式来估计 $\rho_m$ 的值

回归树

当我们的基本分类器是一个包含J个节点的回归树时，回归树模型可以表示为

h (x; {b j, R j} J 1) = \sum b = j J b j I (x \in R j) (8)

$h(x;\{b_j, R_j\}_1^J) = \sum_{b=j}^Jb_jI(x\in R_j) \qquad (8)$
其中

{Rj}J1 $\{ R_j \}_1^J$ 不相交的区域，它们的集合覆盖了预测值的空间，

{bj}J1 $\{ b_j \}_1^J$ 是叶子节点的值，可以认为是模型

h $h$ 的系数
利用回归树模型，算法流程6中的公式可以被替换为：

F m (x) = F m - 1 (x) + ρ m \sum j = 1 J b j m I (x \in R j m) (9)

$F_m(x) = F_{m-1}(x) + \rho_m \sum_{j=1}^J b_{jm}I(x \in R_{jm})\qquad (9)$
其中

{Rjm}J1 $\{ R_{jm} \}_1^J$ 是第m次迭代生成的树所产生的区域。第m次迭代的树用来预测流程3中由流程4中平方误差产生的

{ỹ i}Ni $\{\tilde y_i\}_i^N$

{bjm} $\{ b_{jm}\}$ 可以被表示为

b j m = a v e x i \in R j m y ̃ i

$b_{jm} = ave_{x_i \in R_{jm}} \tilde y_i$ 即用平均值表示该叶子节点拟合的值
有了下降的方向，我们还需要最好的步长，缩放因子

ρm $\rho_m$ 是流程5中线性搜索方式的一种解决方案
从上面可以看出，我们是先求的

bjm $b_{jm}$ ，然后在求解

ρm $\rho_m$ ，我们能否同时求解呢？
另

γjm=ρmbjm $\gamma_{jm} = \rho_{m}b_{jm}$ ，公式9可以被表示为：

F m (x) = F m - 1 (x) + \sum j = 1 J γ j m I (x \in R j m) (10)

$F_m(x) = F_{m-1}(x) + \sum_{j=1}^J \gamma_{jm}I(x \in R_{jm})\qquad (10)$
通过优化如下公式来获取最优的系数

γjm $\gamma_{jm}$ ：

{γ j m} J 1 = a r g m i n γ j J 1 \sum i = 1 N L ⎛ ⎝ ⎜ ⎜ y i, F m - 1 (x i) + \sum j = 1 J γ j I (x \in R j m) ⎞ ⎠ ⎟ ⎟ (11)

$\{\gamma_{jm}\}_1^J = argmin_{\ \gamma_j {\ _1^J}}\sum_{i=1}^N L\left(y_i, F_{m-1}(x_i) + \sum_{j=1}^J\gamma_jI(x \in R_{jm})\right)\qquad (11)$
由于回归树产生的叶子节点各个区域之间是不相交的，且所有的样本最终都会属于某个叶子节点，所以公式11可以表示为：

γ j m = a r g m i n γ \sum x i \in R j m L (y i, F m - 1 (x i) + γ)

$\gamma_{jm} = argmin_\gamma \sum_{x_i\in R_{jm}} L(y_i, F_{m-1}(x_i) + \gamma)$
给定当前

Fm−1(xi) $F_{m-1}(x_i)$ ，

γjm $\gamma_{jm}$ 可以作为叶子节点的值，该值可以看做是基于损失函数L的每个叶子节点的最理想的常数更新值，也可以认为

γjm $\gamma_{jm}$ 是即有下降方向又有下降步长的值。
综上，用回归树作为基本分类器的梯度提升算法流程可以如下表示：
1.

F0(x)=argminρ∑Ni=1L(yi,ρ) $F_0(x) = argmin_\rho \sum _{i=1}^N L(y_i, \rho)$
2. For

m=1 $m = 1$ to

M $M$ do:
3.

ỹ i=−[∂L(y,F(xi))∂F(xi)]F(x)=Fm−1(x),i=1,N $\qquad \tilde y_i = -[{\partial L(y,F(x_i)) \over \partial F(x_i)}]_{F(x) = F_{m-1}(x)}, i = 1, N$
4.

{Rjm}J1=J−terminalnodetree({ỹ i,xi}Ni) $\qquad \{R_{jm}\}_1^J = J-terminal\, node\, tree(\{ \tilde y_i, x_i \}_i^N)$
5.

γjm=argminγ∑xi∈RjmL(yi,Fm−1(xi)+γ) $\qquad \gamma_{jm} = argmin_\gamma \sum_{x_i\in R_{jm}} L(y_i, F_{m-1}(x_i) + \gamma)$
6.

Fm(x)=Fm−1(x)+∑Jj=1γjmI(x∈Rjm) $\qquad F_m(x) = F_{m-1}(x) + \sum_{j=1}^J \gamma_{jm}I(x \in R_{jm})$
7. endFor
endAlgorighm
其中3是计算残差（利用损失函数的负梯度在当前模型的值作为残差的近似值），4是拟合一颗含有J个叶子节点的回归树，5是估计回归树叶子节点的值
下面我们看一下二元分类、多元分类、回归中残差的计算、叶子节点值的估计。

Two-class logistic regression and classification

我们用negative binomial log-likehood作为我们的损失函数：

L (y, F) = l o g (1 + e x p (- 2 y F)), y \in - 1, 1 (12)

$L(y, F) = log(1 + exp(-2yF)), y \in {-1, 1}\qquad (12)$
其中

F (x) = 1 2 l o g [P r ( y = 1 | x ) P r ( y = - 1 | x )] (13)

$F(x) = {1\over2}log\left[{Pr(y=1|x) \over Pr(y=-1|x)}\right]\qquad (13)$
公式13是logit函数，log odds
如上公式是Freidman的论文中使用的公式，我认为使用在逻辑回归中常见的

L(y,F)=ylogF+(1−y)log(1−F) $L(y, F) = ylogF + (1-y)log(1-F)$ ，其中

F(z)=11+exp(−z) $F(z) ={ 1\over{1+exp(-z)}}$ 也可以
计算残差：

y ̃ i = - [\partial L ( y , F ( x i ) ) \partial F ( x i )] F (x) = F m - 1 (x) = 2 y i 1 + e x p ( 2 y i F m - 1 ( x i ) ) (14)

$\tilde y_i = -[{\partial L(y,F(x_i)) \over \partial F(x_i)}]_{F(x) = F_{m-1}(x)} = {2y_i\over 1+exp(2y_iF_{m-1}(x_i))}\qquad(14)$
叶子节点值的估计：

γ j m = a r g m i n γ \sum x i \in R j m l o g (1 + e x p (- 2 y i (F m - 1 (x i) + γ))) (15)

$\gamma_jm = argmin_\gamma \sum_{x_i \in R_{jm}} log(1+exp(-2y_i(F_{m-1}(x_i) + \gamma)))\qquad (15)$
可以通过一步Newton-Raphson来近似公式15，估计结果为：

γ j m = \sum x i \in R j m y ̃ i \sum x i \in R j m | y ̃ i | ( 2 - | y ̃ i | )

$\gamma_{jm} = {\sum_{x_i \in R_{jm}}\tilde y_i \over {\sum_{x_i \in R_{jm}}}|\tilde y_i|(2-|\tilde y_i|)}$
最终得到的

FM(x) $F_M(x)$ 与对数几率 log-odds相关，我们可以用来进行概率估计

F (x) = 1 2 l o g (p 1 - p)

$F(x) = {1\over2}log\left({p \over 1-p}\right)$

e 2 F (x) = p ( 1 - p )

$e^{2F(x)} = {p\over(1-p)}$

P + (x) = p = e 2 F ( x ) 1 + e 2 F ( x ) = 1 1 + e - 2 F ( x )

$P_+(x) = p = {e^{2F(x)}\over 1+e^{2F(x)}} = {1\over1+e^{-2F(x)}}$

P - (x) = 1 - p = 1 1 + e 2 F ( x )

$P_-(x) = 1-p = {1\over1+e^{2F(x)}}$
有了概率之后，我们接下来就可以利用概率进行分类

Multi-class logistic regression and classification

我们使用multi-class log-loss作为损失函数：

L ({y k, F k (x)} K 1) = - \sum k = 1 K y k l o g p k (x) (16)

$L(\{y_k, F_k(x)\}_1^K) = -\sum_{k=1}^K y_klogp_k(x)\qquad(16)$
其中使用softmax来计算概率：

p k (x) = e x p (F k (x)) / \sum l = 1 K e x p (F l (x)) (17)

$p_k(x) = exp(F_k(x)) / \sum_{l=1}^Kexp(F_l(x))\qquad(17)$
从公式17可以得出，对于多分类问题，我们需要为每个类别创建一颗回归树

Fl(x)l=1,2,...,k $F_l(x)\, l=1,2,...,k$
计算残差：

y ̃ i k = - [\partial L ( { y i l , F l ( x i ) } K l = 1 ) \partial F k ( x i )] {F l (x) = F l, m - 1 (x)} K 1 = y i k - p k, m - 1 (x i) (18)

$\tilde y_{ik} = -[{\partial L(\{y_{il},F_l(x_i)\}_{l=1}^K) \over \partial F_k(x_i)}]_{\{F_l(x) = F_{l, m-1(x)}\}_1^K} = y_{ik} - p_{k,m-1(x_i)}\qquad (18)$
叶子节点值的估计：

{r j k m} = a r g m i n γ j k \sum i = 1 N \sum k = 1 K ϕ ⎛ ⎝ ⎜ ⎜ y i k, F k, m - 1 (x i) + \sum j = 1 J γ j k I (x i \in R j m)} ⎞ ⎠ ⎟ ⎟ (19)

$\{r_{jkm}\} = argmin_{\gamma_{jk}}\sum_{i=1}^N \sum_{k=1}^K \phi \left( y_{ik}, F_{k,m-1}(x_i) + \sum_{j=1}^J\gamma_{jk}I(x_i \in R_{jm})\}\right)\qquad(19)$
可以通过一步Newton-Raphson来近似公式19，估计结果为：

γ j k m = K - 1 K \sum x i \in R j k m y ̃ i k \sum x i \in R j k m | y ̃ i k | ( 1 - | y ̃ i k | )

$\gamma_{jkm} = {K-1\over K}{\sum_{x_i \in R_{jkm}}\tilde y_{ik} \over {\sum_{x_i \in R_{jkm}}}|\tilde y_{ik}|(1-|\tilde y_{ik}|)}$

Regression

我们使用Least-squares作为损失函数：

L (y, F) = ( y - F ) 2 2

$L(y, F) = {(y-F)^2\over 2}$
计算残差：

y ̃ i = - [\partial L ( y , F ( x i ) ) \partial F ( x i )] F (x) = F m - 1 (x) = y i - F m - 1 (x i) (20)

$\tilde y_i = -[{\partial L(y,F(x_i)) \over \partial F(x_i)}]_{F(x) = F_{m-1}(x)} = {y_i - F_{m-1}(x_i)}\qquad(20)$
叶子节点值的估计：

γ j m = a r g m i n γ \sum x i \in R j m 1 2 (y i - (F m - 1 (x i) + γ)) 2 (21)

$\gamma_{jm} = argmin_\gamma \sum_{x_i \in R_{jm}} {1\over 2}(y_i - (F_{m-1}(x_i) + \gamma))^2\qquad (21)$

γ j m = a r g m i n γ \sum x i \in R j m 1 2 (y i - F m - 1 (x i) - γ) 2

$\gamma_{jm} = argmin_\gamma \sum_{x_i \in R_{jm}} {1\over 2}(y_i - F_{m-1}(x_i) - \gamma)^2$

γ j m = a r g m i n γ \sum x i \in R j m 1 2 (y ̃ i - γ) 2

$\gamma_{jm} = argmin_\gamma \sum_{x_i \in R_{jm}} {1\over 2}(\tilde y_i - \gamma)^2$
容易得出以下结果：

γ j m = a v e x i \in R j m y ̃ i

$\gamma_{jm} = ave_{x_i \in R_{jm}} \tilde y_i$

回归树的创建

拟合残数是一个回归问题，所以在分割样本时，我们不会采用基尼指数（Gini）、信息增益（IG）等用于分类的标准。
我们可以选用MSE(mean square error impurity criterion)作为分割样本的标准。
也可是采用Friedman在论文中的the least-squares improvement criterion，公式如下：

i 2 (R l, R r) = w l w r w l + w r (y ¯ l - y ¯ r) 2

$i_2(R_l, R_r) = {w_lw_r\over w_l + w_r}(\bar y_l - \bar y_r)^2$
其中

y¯ly¯r $\bar y_l \, \bar y_r$ 分别是左右孩子的平均值，

wlwr $w_l \, w_r$ 分别是左右孩子对应的权重和
本文是针对具体的损失函数进行的相关推导，泛化能力差，大家可以参考xgboost作者的这篇文章，作者进行了更加一般的推导，这一个抽象的形式对于实现机器学习工具也是非常有帮助的。
引用：
Greedy Function Approximation: A Gradient Boosting Machine