博主最近为了准备校招猛看有关gbdt的算法细节,有一个百思不得其解的疑惑,就是xgboost在处理二分类问题时,返回的预测值是0~1之间的概率值,莫非和logistic function有关?
最终,我查阅了xgboost官网的介绍,得到了一些答案。在这里,具体原理我就不讲了,网上一大堆资料写烂了(具体原理请看这篇文章),我说几个容易忽视的地方。
1.叶子是以什么指标决定是否分裂的?
一开始,在网上看资料说xgboost用到的都是CART回归树,自然而言就以为,解决分类问题用到时gini系数,回归问题用的是均方差,实际根本不是这回事!
首先,我们的obj经过一系列化简得到
这里