1 简介
用户的自身特征、物品的特征以及上下文是推荐系统中极其重要的数据,其中往往包含着大量的信息。因此,如何利用这些原始的特征信息并构建新的信息是非常重要的。GBDT+LR模型是Facebook在2014年提出的模型,顾名思义,这个模型是GBDT模型与LR模型的组合。为什么要采用这两个模型的组合?我们知道,LR是用于CTR预测的一个经典模型,这个模型形式十分简单,只需在输出加上sigmoid函数就可以很好地应用于二分类问题,而LR模型预测的好坏与输入特征有着很大的关系。在机器学习领域,我们通常说,输入特征决定了预测的极限,模型只是在逼近这个极限。因此,如何构造LR模型的输入特征就极为重要了。人工构造特征工作量大又不易泛化,对于不同的问题要重新进行特征构造,采用GBDT模型来构造特征就能够自动构造有效的特征。以GBDT构造的特征作为输入,由LR模型进行分类预测能够很好地弥补人工特征构造的不足,缩短模型开发周期,因此,GBDT+LR的组合在CTR预测任务上具有很好的效果。
2 为什么GBDT能够构造有效的特征
GBDT全称为梯度提升树,它经过多轮迭代,每轮迭代产生一棵决策树,每一棵决策树学习的是前一棵输出的残差,即输出与实际值的差值。因此,GBDT的学习是一个梯度提升的过程,每一轮迭代都将预测的效果提升一点,最终得到的分类器是将每轮训练得到的决策树进行加权求和得到的。GBDT的模型结构如下图所示:

也就是说,第一棵决策树是将所有的输入特征进行了组合分类,树的每一个叶子就是所构造的一个新的特征,这个特征是输入特征的组合,能够区分一类的数据,而后面每一轮迭代得到的决策树则是将上一棵树的残差进行了特征组合,每一个叶子就是一个新的特征,能够区分一类的残差数据。因此,我们说采用GBDT特征能够自动构造有效的特征。

本文探讨了如何利用GBDT自动构造高效特征,并结合LR进行CTR预测。通过解释GBDT的工作原理和GBDT+LR模型的结构,展示了这种组合在提升预测性能和缩短开发周期方面的优势。
最低0.47元/天 解锁文章
3496

被折叠的 条评论
为什么被折叠?



