前言:
{
之前把《机器学习》上面的集成学习部分过了一遍,之后就想去做编程习题,但是经过搜索发现了很多新模型。上次介绍的是xgboos,而这次介绍CatBoost。
实际除此之外,我还试了lgbm、xgboost和sklearn(sklearn之后可能会单独介绍),但是在同一个数据集上,这3个模型很快(加起来才几分钟)就出结果了,而CatBoost跑了差不多8个小时(英特尔I7),后来换成GPU(英伟达860)还是跑了大概2小时,它也因此成功吸引了我的注意。
[1]是论文原文地址,[2]是官方说明文档。
}
正文:
{
第一部分:
部分现有方法:
首先,作者介绍了目前的集成学习方法的特点:它们都会把类别特征转换为数值(比如对性别来说,“男”被转换成0,“女”被转换成1),然而类别特征并没有大小之分。
有一种方法会使得特征与标签更为相关,即使用样本标签来缩放类别特征值:设为样本的m个特征的特征向量,
为标签值,则使用