【GBDT+LR】—特征⼯程模型化的开端

本文链接：https://blog.youkuaiyun.com/m0_53259482/article/details/138472572

文章探讨了FFM模型的局限性，提出GBDT+LR模型通过自动特征工程和避免复杂梯度问题，简化了特征组合过程。GBDT+LR模型的意义在于推动了特征工程的模型化，减少了人工干预，实现端到端训练。同时，与深度学习的关联展示了这一趋势的延续。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、提出背景

FFM模型采⽤引⼊特征域的⽅式增强了模型的特征交叉能⼒，但⽆论如何，FFM只能做⼆阶的特征交叉，如果继续提⾼特征交叉的维度，会不可避免地产⽣组合爆炸和计算复杂度过⾼的问题。

二、GBDT+LR组合模型的结构

利⽤ GBDT ⾃动进⾏特征筛选和组合，进⽽⽣成新的离散特征向量，再把该特征向量当作LR模型输⼊，预估CTR的模型结构。

⽤ GBDT 构建特征⼯程，利⽤ LR 预估 CTR 这两步是独⽴训练的，所以不存在如何将 LR 的梯度回传到 GBDT 这类复杂的问题。

三、GBDT模型进⾏特征转换的过程

利⽤训练集训练好GBDT模型之后，就可以利⽤该模型完成从原始特征向量到新的离散型特征向量的转化。具体过程如下。

⼀个训练样本在输⼊GBDT的某⼀⼦树后，会根据每个节点的规则最终落⼊某⼀叶⼦节点，把该叶⼦节点置为 1，其他叶⼦节点置为 0，所有叶⼦节点组成的向量即形成了该棵树的特征向量，把GBDT所有⼦树的特征向量连接起来，即形成了后续LR模型输⼊的离散型特征向量。

事实上，决策树的深度决定了特征交叉的阶数。如果决策树的深度为4，则通过3次节点分裂，最终的叶节点实际上是进⾏三阶特征组合后的结果，如此强的特征组合能⼒显然是FM系的模型不具备的。但 GBDT容易产⽣过拟合，以及GBDT 的特征转换⽅式实际上丢失了⼤量特征的数值信息，因此不能简单地说GBDT 的特征交叉能⼒强，效果就⽐ FFM 好，在模型的选择和调试上，永远都是多种因素综合作⽤的结果。

四、GBDT+LR组合模型意义

GBDT+LR组合模型对于推荐系统领域的重要性在于，它⼤⼤推进了特征⼯程模型化这⼀重要趋势。在GBDT+LR组合模型出现之前，特征⼯程的主要解决⽅法有两个：⼀是进⾏⼈⼯的或半⼈⼯的特征组合和特征筛选；⼆是通过改造⽬标函数，改进模型结构，增加特征交叉项的⽅式增强特征组合能⼒。但这两种⽅法都有弊端，第⼀种⽅法对算法⼯程师的经验和精⼒投⼊要求较⾼；第⼆种⽅法则要求从根本上改变模型结构，对模型设计能⼒的要求较⾼。

GBDT+LR组合模型的提出，意味着特征⼯程可以完全交由⼀个独⽴的模型来完成，模型的输⼊可以是原始的特征向量，不必在特征⼯程上投⼊过多的⼈⼯筛选和模型设计的精⼒，实现真正的端到端（End to End）训练。

⼴义上讲，深度学习模型通过各类⽹络结构、Embedding层等⽅法完成特征⼯程的⾃动化，都是GBDT+LR开启的特征⼯程模型化这⼀趋势的延续