Wide & deep Model：从Google到华为

最新推荐文章于 2025-06-06 00:00:41 发布

原创

最新推荐文章于 2025-06-06 00:00:41 发布 · 4k 阅读

4 ·

CC 4.0 BY-SA版权

本文深入探讨了Google提出的Wide & Deep Learning模型及其在推荐系统中的应用，强调了模型的wide部分用于记忆历史交互，而deep部分用于提高泛化能力。华为的DeepFM进一步创新，通过共享参数简化特征工程。实验表明，DeepFM在CTR预测上的表现优于其他模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在之前的一篇博客基于深度学习的推荐系统（二）MLP based中，我简单地提到了wide&deep model。在这里，我将这一模型单独拿出来加以讲述，因为这个模型是很多工业界推荐系统的根基。从Google在2016年发表这篇文章开始，越来越多的公司开始使用wide&deep model和它的变种。其中，华为提出的DeepFM是一个较为典型的变种，之前也提到过一些，我也会在这篇文章中加以讲述。

Wide & Deep Learning for Recommender Systems

Wide & Deep Learning for Recommender Systems是Google在2016年发表的文章。这篇文章一共只有4页，非常非常短，但是其内容产生了巨大的影响。文章大意如下：

使用非线性特征变换的广义线性模型被广泛用于具有稀疏输入的大规模回归和分类问题。通过一系列特征转换，我们可以完成历史交互的memorization（记忆），用这些特征建立的广义线性模型是有效且可解释的。但如果要提升这类模型的泛化（generalization）性能，需要很多的特征工程工作。深度神经网络可以通过针对稀疏特征学习的低维密集嵌入更好地推广到看不见的特征组合，因此需要较少的特征工程。但是当交互信息较少时，它会overfit，学习到一些本来不存在的关联。我们把前者称为wide，后者称为deep，把这两者组合起来，就得到了wide&deep model。

其实我个人认为文中关于memorization和generalization的定义和我们常用的不太一样，所以为了方便起见，我把原文定义在这里写一遍：

One challenge in recommender systems, similar to the general search ranking problem, is to achieve both memorization and generalization. Memorization can be loosely defined as learning the frequent co-occurrence of items or features and exploiting the correlation available in the historical data. Generalization, on the other hand, is based on transitivity of correlation and explores new feature combinations that have never or rarely occurred in the past. Recommendations based on memorization are usually more topical and directly relevant to the items on which users have already performed actions. Compared with memorization, generalization tends to improve the diversity of the recommended items.

所谓wide model，是指logistic regression等使用人工特征的模型，这些模型尤其常用one-hot编码。这些模型简单可解释，但无法对未在训练集中出现的feature建模。所谓deep model，是指embedding-based models，包括FM和深度神经网络。它们能从稀疏数据中学习到稠密的feature embedding，但如果输入矩阵是稀疏但高秩的，它就可能学习出很多并不存在的关联。

wide部分的表达式为 $W^T_{wide}\{x, \phi(x)\} + b$ ，其中 $w$ 是参数， $x$ 是特征工程引入的input feature， $\phi(x)$ 是这些feature被转换后的形式，最常见的转换为cross-product transformation，定义为 $\phi_k(x) = \prod_{i=1}^{d}x_i^{c_{ki}}, c_{ki} \in \{0, 1\}$