
特征工程是许多预测问题成功的关键,但这一过程需要大量人力开销并且依赖于经验知识。DNN是解决这一问题的方法,但这种方法表示特征之间的交互是隐式。本篇论文提出的Deep & Cross Network (DCN)在保证了DNN对于特征交互的基本表示的同时,通过引入cross network使得其在特定阶数的交互关系时更加节省空间,并用CTR实验证明了DCN的这一特性。
问题描述
CTR(Click-through rate)是广告推荐领域关注的指标,它关系到广告投放地点等推荐策略的重大决策。然而,使用机器学习模型预测CTR是困难的,原因在于这个机器学习任务中的特征高维且稀疏,简单将特征拼接在一起后进入一个神经网络学习效率低,因此在推荐系统领域会使用交叉特征来提升后续模型的效率1。
现有方法不足
早期的特征交互耗费大量人力,这种方法可以得到显式且有高解释性的交叉特征,但成本高不适合广泛使用。因而后续DNN被直接简单粗暴地使用在编码交叉特征的模型中,这种模型虽然可以天然学出交叉特征,但这种交叉特征却是隐式的,并且DNN也被发现不能够高效提取交叉特征。后续发展出了一些显式提取交叉特征、且脱离人的经验的模型,它们分为3类。本文提出的DCN属于深度特征交互中的一种。
本文核心思想

DCN中的交互特征指cross network中的每层输出,即 x 1 , x 2 . . . x_1, x_2... x1,x2...,在计算这些中间输出的过程中,起到关键作用的 w c , 0 w_{c,0} wc,0则代表了交叉系数的强度,随着层数增加,中间输出代表的交叉特征的阶数也随之增加。
DCN主要包括4个模块:Embedding and stacking layer、Cross network、Deep network和Combination output layer。本文核心创新点在于Cross network的设计。
具体实现细节
Cross network

与传统的神经网络不同,Cross network中权重和原始层 x 0 x_0 x0以及上一层的输出结果相乘得到该层多学到的交叉特征与上一层的结果相加。
x l + 1 = x 0 x l T w l + b l + x l = f ( x l , w l , b l ) + x l x_{l+1} =x_0 x_l^T w_l+b_l+x_l=f(x_l,w_l,b_l )+x_l xl+1=x0xlTwl+bl

针对CTR预测中的特征交互难题,本文提出了一种新的深度学习模型——Deep&CrossNetwork(DCN)。该模型结合了DNN的强大表示能力和CrossNetwork对特征交互的高效提取能力。CrossNetwork通过特殊的网络结构设计,不仅能够显式地捕捉特征间的高阶交互,还能以较少的参数达到较好的效果。
最低0.47元/天 解锁文章
3673

被折叠的 条评论
为什么被折叠?



