【转】GBDT算法介绍

最新推荐文章于 2024-09-26 09:10:20 发布

原创

最新推荐文章于 2024-09-26 09:10:20 发布 · 3.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #工作 #数据分析 #tree #工具 #测试

本文是对GBDT（Gradient Boosting Decision Tree）算法的介绍，包括决策树的基础知识、Treelink模型的工作原理以及其在阿里集团内的应用。Treelink模型由多棵小规模决策树组成，通过迭代优化损失函数来提高预测能力，防止过拟合。文章还讨论了模型训练流程、参数设置和常见问题，强调了机器学习与数据分析的结合的重要性。

http://www.searchtb.com/2010/12/an-introduction-to-treelink.html

“机器学习”这个名词对大家来说想必不是一个陌生的词汇，特别对算法组的同学来说，工作中或多或少接触使用过这种“高科技“。对于我来说，刚来淘宝工作一个月就开始接触了机器学习，当时做主搜索功夫熊猫项目，和小致飘雪一起做交易模型，正是使用了机器学习的方法，也首次接触了treelink模型。做完那个项目后对机器学习解决问题的流程有了一定的了解，但对其内部的工作原理和实现机制还是完全不知道，基本也就是在黑盒使用机器学习工具。后面也多多少少听了一些机器学习的讲座，但都是一些比较宽泛的基本概念，没有深入的原理性的介绍。也自己尝试过专研一下，但生硬晦涩的E文让人望而生畏。一直到今年做导购搜索的项目，又再次需要使用机器学习，“怀揣着对科学真理的向往”，主动请缨做模型方面的工作。经过一个多月的学习实践，算是对treelink模型有了一定的了解。下面做一些对treelink模型通俗版的介绍。都是自己的一些理解，如果有误，多指教。
在介绍treelink之前首先不得不简单介绍一下决策树算法，决策树相信大家都有所了解，任何一本机器学习书籍都会介绍这种算法，也是应用最广的归纳推理算法之一。该模型学习的结果是一棵决策树，这棵决策树可以被表示成多个if-else的规则。下图是一个典型的学习得到决策树。这棵决策树根据两个特征因素来分类“元涵今天的心情好坏”。长方形的表示特征，椭圆型的表示特征的取值，最下面的叶子节点就是最后的分类结果了。

学习得到如上这棵决策树之后，当输入一个待预测的样本实例的时候，我们就可以根据这个样本的两个特征的取值来把这个样本划分到某一个叶子节点，得到分类结果了，这就是决策树模型的预测过程，决策树的学习构建过程这里就不介绍了，大家看书