这周已经过去了3天,主要精力都是集中在sklearn的gbdt代码解读上,进展肯定是有,但是感觉阻力比较大,但是这又有什么办法呢?人一能之,我十之!但是感觉有时候多花时间的情况下效率很低很低,但是可能也是自己内心浮躁,想回去玩造成了这种效率低下,要看这个算法,只有不到黄河心不死的决心,即便我被迫需要先应用再解读,我也一定要花时间去解读,一定要精通这个算法,排除万难!把前几天关于gbdt的解读再总结一下!
gbdt = GradientBoostingClassifier()用默认的参数进行一些初始化,生成一些实例变量,这个类主要继承于一个GradientBoostingBase类
gbdt.fit(x,y)主要的核心在于这个函数,也是几乎所有sklearn算法的建模接口,跟进去过后
首先进行一些检测是否热启动,检测数据集是否规范,检查因变量是否合格,检查参数是否合规
self._init_state()然后进行stage统计的初始化
self.init_.fit(X, y, sample_weight)
y_pred = self.init_.predict(X)用初始的函数去拟合并计算,fit中就是简单的计算log(odds ratio),然后predict就用这个值去填充每一个预测,得到F0的预测值y_pred
n_stages = self._fit_stages(X, y, y_pred, sample_weight, random_state,

博主分享了自己解读sklearn中GBDT代码的进展和挑战,强调了面对困难的决心。文章概述了源码的主要流程,包括数据检查、参数处理、迭代训练阶段以及损失函数的计算。在_fitting_stages过程中,博主发现核心部分是逐次建立决策树并利用残差进行预测。由于涉及Cython代码,理解起来有一定难度,但博主表示会继续深入研究。
最低0.47元/天 解锁文章
5464

被折叠的 条评论
为什么被折叠?



