对于一个任务,判断某个家庭成员会对某新出的游戏感兴趣的概率大不大。
考虑XGBoost的Bagging过程:
y ^ i ( 0 ) = 0 \hat{y}_i^{(0)} = 0 y^i(0)=0
y ^ i ( 1 ) = f 1 ( x i ) = y ^ i ( 0 ) + f 1 ( x i ) \hat{y}_i^{(1)} = f_1(x_i) = \hat{y}_i^{(0)} + f_1(x_i) y^i(1)=f1(xi)=y^i(0)+f1(xi)
y ^ i ( 2 ) = f 1 ( x i ) + f 2 ( x i ) = y ^ i ( 1 ) + f 2 ( x i ) \hat{y}_i^{(2)} = f_1(x_i) + f_2(x_i) = \hat{y}_i^{(1)} + f_2(x_i) y^i(2)=f1(xi)+f2(xi)=y^i(1)+f2(xi)
…
y ^ i ( t ) = ∑ k = 1 t f k ( x i ) = y ^ i ( t − 1 ) + f t ( x i ) \hat{y}_i^{(t)} = \sum_{k=1}^{t} f_k(x_i) = \hat{y}_i^{(t-1)} + f_t(x_i) y^i(t)=∑k=1tfk(xi)=y^i(t−1)+ft(xi)
对于这颗回归树,可以用数学公式如下描述: y ^ i = ∑ j w j x i j \hat{y}_i = \sum_j w_j x_{ij} y^i=∑jwjxij
目标函数: l ( y i , y ^ i ) = ( y i − y ^ i ) 2 l(y_i, \hat{y}_i) = (y_i - \hat{y}_i)^2 l(yi,y^i)=(yi−y^i)2
正则化项: Ω ( f t ) = γ T + 1 2 λ ∑ j = 1 T w j 2 \Omega(f_t) = \gamma T + \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2 Ω(ft)=γT+21λ∑j=1Twj2(叶子结点的个数和权重值不能太大)
现在还剩下一个问题,我们如何选择每一轮加入什么呢?答案是非常直接的,选取一个目标函数来使得我们的目标函数尽量最大地降低,很容易想到下式:
O b j ( t ) = ∑ i = 1 n l ( y i , y ^ i ( t ) ) + ∑ i = 1 t Ω ( f i ) Obj^{(t)} = \sum_{i=1}^{n} l(y_i, \hat{y}_i^{(t)}) + \sum_{i=1}^{t} \Omega(f_i) Obj(t)=i=1∑nl(y