sklearn中gbdt源码解读笔记

最新推荐文章于 2020-12-27 16:30:19 发布

原创

最新推荐文章于 2020-12-27 16:30:19 发布 · 3.5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

博主分享了自己解读sklearn中GBDT代码的进展和挑战，强调了面对困难的决心。文章概述了源码的主要流程，包括数据检查、参数处理、迭代训练阶段以及损失函数的计算。在_fitting_stages过程中，博主发现核心部分是逐次建立决策树并利用残差进行预测。由于涉及Cython代码，理解起来有一定难度，但博主表示会继续深入研究。

这周已经过去了3天，主要精力都是集中在sklearn的gbdt代码解读上，进展肯定是有，但是感觉阻力比较大，但是这又有什么办法呢？人一能之，我十之！但是感觉有时候多花时间的情况下效率很低很低，但是可能也是自己内心浮躁，想回去玩造成了这种效率低下，要看这个算法，只有不到黄河心不死的决心，即便我被迫需要先应用再解读，我也一定要花时间去解读，一定要精通这个算法，排除万难！把前几天关于gbdt的解读再总结一下！

gbdt = GradientBoostingClassifier()

用默认的参数进行一些初始化，生成一些实例变量，这个类主要继承于一个GradientBoostingBase类

gbdt.fit(x,y)

主要的核心在于这个函数，也是几乎所有sklearn算法的建模接口，跟进去过后

首先进行一些检测是否热启动，检测数据集是否规范，检查因变量是否合格，检查参数是否合规

self._init_state()

然后进行stage统计的初始化

self.init_.fit(X, y, sample_weight)

y_pred = self.init_.predict(X)

用初始的函数去拟合并计算，fit中就是简单的计算log(odds ratio)，然后predict就用这个值去填充每一个预测，得到F0的预测值y_pred

        n_stages = self._fit_stages(X, y, y_pred, sample_weight, random_state,

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。