上手机器学习系列-第7篇(上)-CatBoost编码

本文介绍了CatBoost,一个来自俄罗斯搜索引擎公司的集成学习算法,特别适合处理类别型特征,无需one-hot编码。文章简述了CatBoost的Python接口使用,包括sklearn风格的接口,并提到其内置数据结构Pool。尽管没有Spark接口限制了它在大规模分布式场景的应用,但其简单的调参和GPU支持仍是亮点。

前言

本篇继续我们的集成算法学习之旅。这次带来的是一家俄罗斯搜索引擎公司推出的集成学习算法:Catboost(官网[https://catboost.ai/])。名字中的cat代表着categorical,就是说它可以直接处理类别型的特征变量,而无须进行one-hot-encoding处理,这还真是相比于其它算法包的一个优点。此外,官方宣传的卖点还包括:简化的调参(默认的参数即可实现高质量的预测);对GPU的支持等。

如果有一直关注我们的系列文章,相信大家已经发现主流的算法包都会封装一套像sklearn那样的接口规范,使用起来已经毫无成本可言了。CatBoost也不例外。

Python + CatBoost

还是熟悉的配方,通过sklearn风格的接口可快速上手如下:

from sklearn.datasets import load_breast_cancer
X,y = load_breast_cancer(return_X_y = True)

from sklearn.model_selection <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值