一、提出背景
FFM模型采⽤引⼊特征域的⽅式增强了模型的特征交叉能⼒,但 ⽆论如何,FFM只能做⼆阶的特征交叉,如果继续提⾼特征交叉的维 度,会不可避免地产⽣组合爆炸和计算复杂度过⾼的问题。
二、GBDT+LR组合模型的结构
利⽤ GBDT ⾃动进⾏特征筛选和 组合,进⽽⽣成新的离散特征向量,再把该特征向量当作LR模型输 ⼊,预估CTR的模型结构。
⽤ GBDT 构建特征⼯程,利⽤ LR 预估 CTR 这两 步是独⽴训练的,所以不存在如何将 LR 的梯度回传到 GBDT 这类复 杂的问题。
三、GBDT模型进⾏特征转换的过程
利⽤训练集训练好GBDT模型之后,就可以利⽤该模型完成从原始 特征向量到新的离散型特征向量的转化。具体过程如下。
⼀个训练样本在输⼊GBDT的某⼀⼦树后,会根据每个节点的规则 最终落⼊某⼀叶⼦节点,把该叶⼦节点置为 1,其他叶⼦节点置为 0, 所有叶⼦节点组成的向量即形成了该棵树的特征向量,把GBDT所有⼦ 树的特征向量连接起来,即形成了后续LR模型输⼊的离散型特征向 量。
事实上,决策树的深度决定了特征交叉的阶数。如果决策树的深 度为4,则通过3次节点分裂,最终的叶节点实际上是进⾏三阶特征组 合后的结果,如此强的特征组合能⼒显然是FM系的模型不具备的。但 GBDT容易产⽣过拟合,以及GBDT 的特征转换⽅式实际上丢失了⼤量 特征的数值信息,因此不能简单地说GBDT 的特征交叉能⼒强,效果 就⽐ FFM 好,在模型的选择和调试上,永远都是多种因素综合作⽤的 结果。
四、GBDT+LR组合模型意义
GBDT+LR组合模型对于推荐系统领域的重要性在于,它⼤⼤推进 了特征⼯程模型化这⼀重要趋势。在GBDT+LR组合模型出现之前,特 征⼯程的主要解决⽅法有两个:⼀是进⾏⼈⼯的或半⼈⼯的特征组合 和特征筛选;⼆是通过改造⽬标函数,改进模型结构,增加特征交叉 项的⽅式增强特征组合能⼒。但这两种⽅法都有弊端,第⼀种⽅法对 算法⼯程师的经验和精⼒投⼊要求较⾼;第⼆种⽅法则要求从根本上 改变模型结构,对模型设计能⼒的要求较⾼。
GBDT+LR组合模型的提出,意味着特征⼯程可以完全交由⼀个独 ⽴的模型来完成,模型的输⼊可以是原始的特征向量,不必在特征⼯ 程上投⼊过多的⼈⼯筛选和模型设计的精⼒,实现真正的端到端(End to End)训练。
⼴义上讲,深度学习模型通过各类⽹络结构、Embedding层等⽅法 完成特征⼯程的⾃动化,都是GBDT+LR开启的特征⼯程模型化这⼀趋 势的延续