【零散知识】CatBoost的简单了解

本文简要介绍了机器学习模型CatBoost,探讨了其处理类别特征的新方法,特征组合策略以及训练过程。相较于其他模型如lgbm、xgboost,CatBoost在特定数据集上表现出更好的性能,尽管计算耗时较长。文章提到了CatBoost采用随机顺序的样本序列进行多次训练,并以对称完全二叉树结构进行特征组合,有助于减少过拟合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言:

{

    之前把《机器学习》上面的集成学习部分过了一遍,之后就想去做编程习题,但是经过搜索发现了很多新模型。上次介绍的是xgboos,而这次介绍CatBoost。

    实际除此之外,我还试了lgbm、xgboost和sklearn(sklearn之后可能会单独介绍),但是在同一个数据集上,这3个模型很快(加起来才几分钟)就出结果了,而CatBoost跑了差不多8个小时(英特尔I7),后来换成GPU(英伟达860)还是跑了大概2小时,它也因此成功吸引了我的注意。

    [1]是论文原文地址,[2]是官方说明文档。

}

 

正文:

{

    第一部分:

    部分现有方法:

    首先,作者介绍了目前的集成学习方法的特点:它们都会把类别特征转换为数值(比如对性别来说,“男”被转换成0,“女”被转换成1),然而类别特征并没有大小之分。

    有一种方法会使得特征与标签更为相关,即使用样本标签来缩放类别特征值:设为样本的m个特征的特征向量,为标签值,则使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值