Wide& Deep

最新推荐文章于 2025-07-23 08:22:42 发布

原创最新推荐文章于 2025-07-23 08:22:42 发布 · 置顶 · 8.3k 阅读

14 ·

CC 4.0 BY-SA版权

DL 专栏收录该内容

67 篇文章

订阅专栏

Wide&Deep模型结合了线性模型的记忆能力和深度神经网络的泛化能力，适用于推荐系统等场景。模型通过联合训练实现整体预测性能最优化，解决了线性模型泛化不足和深度模型过泛化的问题。

排序系统的发展：

LR-->GBDT+LR
FM-->FFM-->GBDT+FM|FFM

FTRL-->GBDT+FTRL

Wide&DeepModel

Deep Neural Networks for YouTube Recommendations
Reinforce Learning

Wide and deep 模型是 TensorFlow 在 2016 年 6 月左右发布的一类用于分类和回归的模型，并应用到了 Google Play 的应用推荐中 [1]。wide and deep 模型的核心思想是结合线性模型的记忆能力（memorization）和 DNN 模型的泛化能力（generalization），在训练过程中同时优化 2 个模型的参数，从而达到整体模型的预测能力最优。论文见 Wide & Deep Learning for Recommender Systems。

记忆（memorization）通过特征叉乘对原始特征做非线性变换，输入为高维度的稀疏向量。通过大量的特征叉乘产生特征相互作用的“记忆（Memorization）”，高效且可解释，但要泛化需要更多的特征工程。
泛化（generalization）只需要少量的特征工程，深度神经网络通过embedding的方法，使用低维稠密特征输入，可以更好地泛化训练样本中未出现过的特征组合。但当user-item交互矩阵稀疏且高阶时，容易出现“过泛化（over-generalize）”导致推荐的item相关性差。
在推荐场景中是相关性和多样性的融合。

Wide & Deep的模型结构:

wide and deep模型中使用的特征包括两大类：一类是连续型特征，主要用于deep模型的训练，包括real value类型的特征以及embedding类型的特征等；一类是离散型特征，主要用于wide模型的训练，包括sparse类型的特征以及cross类型的特征等。

W&D的特征包括三方面：　　　　User-Feature：contry, language, demographics. 　　　　Contextual-Feature：device, hour of the day, day of the week. 　　　　Impression-Feature：app age, historical statistics of an app. 　　2.1）Wide部分的输入特征：　　　　raw input features and transformed features [手挑的交叉特征]. 　　　　notice: W&D这里的cross-product transformation：　　　　只在离散特征之间做组合，不管是文本策略型的，还是离散值的；没有连续值特征的啥事，至少在W&D的paper里面是这样使用的。　　2.2）Deep部分的输入特征： raw input+embeding处理　　　　对非连续值之外的特征做embedding处理，这里都是策略特征，就是乘以个embedding-matrix。在TensorFlow里面的接口是：tf.feature_column.embedding_column，默认trainable=True. 　　　　对连续值特征的处理是：将其按照累积分布函数P(X≤x)，压缩至[0,1]内。　　　　notice1: Wide部分用FTRL+L1来训练；Deep部分用AdaGrad来训练。使用BP算法采用joint train的方式训练。

notice2特征工程部分：1)连续特征归一化。2)离散特征去掉出现次数过少的特征，减少计算量。

notice3:tf.clip_by_global_norm防止梯度消失和爆炸。　　2.3) Wide&Deep在TensorFlow里面的API接口为：tf.estimator.DNNLinearCombinedClassifier

2.4）FM&DNN vs LR: FM 和 DNN 都算是这样的模型，可以在很少的特征工程情况下，通过学习一个低纬度的 embedding vector 来学习训练集中从未见过的组合特征。

FM 和 DNN 的缺点在于： 当 query-item 矩阵是稀疏并且是 high-rank 的时候（比如 user 有特殊的爱好，或 item 比较小众），很难非常效率的学习出低维度的表示。这种情况下，大部分的 query-item 都没有什么关系。但是 dense embedding 会导致几乎所有的 query-item 预测值都是非 0 的，这就导致了推荐过度泛化，会推荐一些不那么相关的物品。

相反，linear model 却可以通过 cross-product transformation 来记住这些 exception rules，而且仅仅使用了非常少的参数。

总结一下：

线性模型无法学习到训练集中未出现的组合特征；FM 或 DNN 通过学习 embedding vector 虽然可以学习到训练集中未出现的组合特征，但是会过度泛化

W&D的模型的训练：

模型训练采用的是联合训练（joint training），模型的训练误差会同时反馈到线性模型和DNN模型中进行参数更新。相比于ensemble learning中单个模型进行独立训练，模型的融合仅在最终做预测阶段进行，joint training中模型的融合是在训练阶段进行的，单个模型的权重更新会受到wide端和deep端对模型训练误差的共同影响。因此在模型的特征设计阶段，wide端模型和deep端模型只需要分别专注于擅长的方面，wide端模型通过离散特征的交叉组合进行memorization，deep端模型通过特征的embedding进行generalization，这样单个模型的大小和复杂度也能得到控制，而整体模型的性能仍能得到提高。

Joint Training vs Ensemble
- Joint Training 同时训练 wide & deep 模型，优化的参数包括两个模型各自的参数以及 weights of sum
- Ensemble 中的模型是分别独立训练的，互不干扰，只有在预测时才会联系在一起

问题思考：目前的CTR预估模型，实质上都是在“利用模型”进行特征工程上狠下功夫。为什么线性模型有记忆能力，而DNN模型有泛化能力？文章指出，wide端模型通过离散特征的交叉组合进行memorization, deep端模型通过特征的embedding进行generalization. 同时wide and deep模型中使用的特征包括两大类：一类是连续型特征，主要用于deep模型的训练，包括real value 类型的特征及embedding类型的特征等；一类是离散型特征，主要用于wide模型的训练，包括sparse类型的特征以及cross类型的特征等。所有特征的汇总图如下：

图中类与类的关系除了 inherit（继承）之外，同时我们也标出了特征类之间的构成关系：_BucketizedColumn 由_RealValueColumn 通过对连续值域进行分桶构成，_CrossedColumn 由若干_SparseColumn 或者_BucketizedColumn 或者_CrossedColumn 经过交叉组合构成。图中左边部分特征属于离散型特征，右边部分特征属于连续型特征。

tf.contrib.layers.feature_column进行特征处理接口：

（1）sparse column from keys

(2) sparse column from vocabulary file

(3) sparse column with hash bucket

(4) crossed column (笛卡尔积)

（5）我们在实际使用的时候，通常情况下是调用 TensorFlow 提供的接口来构建特征的。以下是构建各类特征的接口：

sparse_column_with_integerized_feature() --> _SparseColumnIntegerized

sparse_column_with_hash_bucket() --> _SparseColumnHashed

sparse_column_with_keys() --> _SparseColumnKeys

sparse_column_with_vocabulary_file() --> _SparseColumnVocabulary

weighted_sparse_column() --> _WeightedSparseColumn

one_hot_column() --> _OneHotColumn

embedding_column() --> _EmbeddingColumn

shared_embedding_columns() --> List[_EmbeddingColumn]

scattered_embedding_column() --> _ScatteredEmbeddingColumn

real_valued_column() --> _RealValuedColumn

bucketized_column() -->_BucketizedColumn

crossed_column() --> _CrossedColumn

优缺点

缺点：Wide 部分还是需要人为的特征工程。优点：实现了对 memorization 和 generalization 的统一建模
ref:
1. 模型代码讲解：https://blog.youkuaiyun.com/heyc861221/article/details/80131369
2. 模型代码及特征工程详解2：https://blog.youkuaiyun.com/kwame211/article/details/78015498
3. 官方代码：https://github.com/tensorflow/models/tree/master/official/wide_deep
4. https://zhuanlan.zhihu.com/p/28202287
5. https://zhuanlan.zhihu.com/p/31589565
6. https://www.zhihu.com/question/56474891