【GBDT+LR】—特征⼯程模型化的开端

文章探讨了FFM模型的局限性,提出GBDT+LR模型通过自动特征工程和避免复杂梯度问题,简化了特征组合过程。GBDT+LR模型的意义在于推动了特征工程的模型化,减少了人工干预,实现端到端训练。同时,与深度学习的关联展示了这一趋势的延续。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、提出背景

FFM模型采⽤引⼊特征域的⽅式增强了模型的特征交叉能⼒,但 ⽆论如何,FFM只能做⼆阶的特征交叉,如果继续提⾼特征交叉的维 度,会不可避免地产⽣组合爆炸和计算复杂度过⾼的问题。

二、GBDT+LR组合模型的结构

利⽤ GBDT ⾃动进⾏特征筛选和 组合,进⽽⽣成新的离散特征向量,再把该特征向量当作LR模型输 ⼊,预估CTR的模型结构。

⽤ GBDT 构建特征⼯程,利⽤ LR 预估 CTR 这两 步是独⽴训练的,所以不存在如何将 LR 的梯度回传到 GBDT 这类复 杂的问题。

三、GBDT模型进⾏特征转换的过程

利⽤训练集训练好GBDT模型之后,就可以利⽤该模型完成从原始 特征向量到新的离散型特征向量的转化。具体过程如下。

⼀个训练样本在输⼊GBDT的某⼀⼦树后,会根据每个节点的规则 最终落⼊某⼀叶⼦节点,把该叶⼦节点置为 1,其他叶⼦节点置为 0, 所有叶⼦节点组成的向量即形成了该棵树的特征向量,把GBDT所有⼦ 树的特征向量连接起来,即形成了后续LR模型输⼊的离散型特征向 量。

事实上,决策树的深度决定了特征交叉的阶数。如果决策树的深 度为4,则通过3次节点分裂,最终的叶节点实际上是进⾏三阶特征组 合后的结果,如此强的特征组合能⼒显然是FM系的模型不具备的。但 GBDT容易产⽣过拟合,以及GBDT 的特征转换⽅式实际上丢失了⼤量 特征的数值信息,因此不能简单地说GBDT 的特征交叉能⼒强,效果 就⽐ FFM 好,在模型的选择和调试上,永远都是多种因素综合作⽤的 结果。

四、GBDT+LR组合模型意义

        GBDT+LR组合模型对于推荐系统领域的重要性在于,它⼤⼤推进 了特征⼯程模型化这⼀重要趋势。在GBDT+LR组合模型出现之前,特 征⼯程的主要解决⽅法有两个:⼀是进⾏⼈⼯的或半⼈⼯的特征组合 和特征筛选;⼆是通过改造⽬标函数,改进模型结构,增加特征交叉 项的⽅式增强特征组合能⼒。但这两种⽅法都有弊端,第⼀种⽅法对 算法⼯程师的经验和精⼒投⼊要求较⾼;第⼆种⽅法则要求从根本上 改变模型结构,对模型设计能⼒的要求较⾼。

         GBDT+LR组合模型的提出,意味着特征⼯程可以完全交由⼀个独 ⽴的模型来完成,模型的输⼊可以是原始的特征向量,不必在特征⼯ 程上投⼊过多的⼈⼯筛选和模型设计的精⼒,实现真正的端到端(End to End)训练。

        ⼴义上讲,深度学习模型通过各类⽹络结构、Embedding层等⽅法 完成特征⼯程的⾃动化,都是GBDT+LR开启的特征⼯程模型化这⼀趋 势的延续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值