上手机器学习系列-第7篇（下）-CatBoost论文阅读笔记

原创

于 2020-03-24 18:14:01 发布 · 853 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文是上手机器学习系列的第7篇（下），主要解读CatBoost算法论文，探讨预测偏移问题和类别变量处理。论文提出排序原则解决boosting中的预测偏移，并详细阐述了类别变量的Target Statistics方法及其优化策略。

前言

在第7篇（上），我们介绍了CatBoost的代码实践，本篇来一起读一下算法原创论文《CatBoost: unbiased boosting with categorical features》，以期加深对于CatBoost的理解。

论文中心思想

笔者提炼了一下论文的核心逻辑如下图所示：

所以最核心的是要理解论文提出的排序原则到底是咋回事。

内容导读

CatBoost方法给笔者的第一印象是它可以直接处理类别型变量，但读论文时才发现它其实初心的目标是解决boosting集成算法中出现的“预测偏移”问题，只是说在类别型变量的处理过程中使用的方法也恰好同样会出现类似的问题，就使用同一种方法解决了。所以笔者觉得论文其实应该把第4部分的内容（讲预测偏移）与第3部分（讲类别变量的处理）换一下顺序。所以本文解读时换个顺序来聊。

预测偏移

作者在这一部分论证说，boosting集成学习算法都会遇到“prediction shift”（笔者本文姑且翻译为预测偏移）的问题，且在以往未得到识别，甚至就是否存在非零的偏移问题都未在理论上得到过证实。但作者自己在论证时只是在一个平方和损失函数的回归问题场景下进行了讨论，且设定了预测函数为一个多项式函数。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。