DeepCrossing
1.背景
DeepCrossing是一个真正的把深度学习架构应用于推荐系统中的模型了,2016年由微软提出,完整的解决了特征工程、稀疏向量稠密化,多层神经网络进行优化目标拟合等一系列深度学习再推荐系统的应用问题。 这个模型涉及到的技术比较基础,在传统神经网络的基础上加入了embedding,残差连接等思想,且结构比较简单,对初学者复现和学习都比较友好。。
DeepCrossing模型应用场景是微软搜索引擎Bing中的搜索广告推荐,用户在输入搜索词之后,搜索引擎除了返回相关结果,还返回与搜索词相关的广告,Deep Crossing的优化目标就是预测对于某一广告,用户是否会点击,依然是点击率预测的一个问题。
这种场景下,我们的输入一般会有类别型特征,比如广告id,和数值型特征,比如广告预算,两种情况。对于类别型特征,我们需要进行one-hot编码处理,而数值型特征 一般需要进行归一化处理,这样算是把数据进行了一个简单清洗。DeepCrossing模型就是利用这些特征向量进行CRT预估。
2.模型结构及原理
为了完成端到端的训练,DeepCrossing模型要在内部网络结构中解决如下问题:
1.离散类特征编码后过于稀疏, 不利于直接输入神经网络训练, 需要解决稀疏特征向量稠密化的问题;
2.如何解决特征自动交叉组合的问题;
3.如何在输出层中达成问题设定的优化目标
DeepCrossing分别设置了不同神经网络层解决上述问题,模型结构如下:
下面分别介绍一下各层的作用:
2.1 Embedding Layer
将稀疏的类别型特征转成稠密的Embedding向量,Embedding的维度会远小于原始的稀疏特征向量。Embedding是NLP里面常用的一种技术。
这里的Feature#1表示的类别特征(one-hot编码后的稀疏特征向量),Feature#2是数值型特征,不用embedding,直接到了Stacking Layer。关于Embedding Layer的实现,往往一个全连接层即可,Tensorflow中有实现好的层可以直接用。和NLP里面的embedding技术异曲同工,比如Word2Vec、语言模型等。
2.2 Stacking Layer
这个层是把不同的Embedding特征和数值型特征拼接在一起,形成新的包含全部特征的特征向量,该层通常也称为连接层, 具体的实现如下,先将所有的数值特征拼接起来,然后将所有的Embedding拼接起来,最后将数值特征和Embedding特征拼接起来作为DNN的输入,这里TF是通过Concatnate层进行拼接。
#将所有的dense特征拼接到一起
dense_dnn_list = list(dense_input_dict.values())
dense_dnn_inputs = Concatenate(axis=1)(dense_dnn_list) # B x n (n表示数值特征的数量)
# 因为需要将其与dense特征拼接到一起所以需要Flatten,不进行Flatten的Embedding层输出的维度为:Bx1xdim
sparse_dnn_list = concat_embedding_list(dnn_feature_columns, sparse_input_dict, embedding_layer_dict, flatten=True)
sparse_dnn_inputs = Concatenate(axis=1)(sparse_dnn_list) # B x m*dim (n表示类别特征的数量,dim表示embedding的维度)
# 将dense特征和Sparse特征拼接到一起
dnn_inputs = Concatenate(axis=1)([dense_dnn_inputs, sparse_dnn_inputs]) # B x (n + m*dim)
2.3 Multiple Residual Units Layer
该层的主要结构是MLP,但DeepCrossing采用了残差网络进行的连接。通过多层残差网络对特征向量各个维度充分的交叉组合,使得模型能够抓取更多的非线性特征和组合特征信息,增加模型的表达能力。残差网络结构如下图所示:
DeepCrossing模型使用稍微修改过的残差单元,它不使用卷积内核,改为了两层神经网络。我们可以看到,残差单元是通过两层ReLU变换再将原输入特征相加回来实现的。具体代码实现如下:
# DNN残差块的定义
class ResidualBlock(Layer):
def