推荐系统 -- NFM

最新推荐文章于 2023-09-07 22:51:23 发布

小孟Tec

最新推荐文章于 2023-09-07 22:51:23 发布

阅读量347

点赞数

分类专栏：推荐系统文章标签：神经网络

本文链接：https://blog.youkuaiyun.com/m0_38024592/article/details/115191686

版权

推荐系统专栏收录该内容

5 篇文章

订阅专栏

文章目录

Abstract

概括如下：

在很多预测任务中要对特征进行one-hot编码，使得最终的特征向量高度稀疏，因此需要进行特征交互。
FM模型只能表达特征之间两两组合之间的关系，无法建模两个特征之间深层次的关系或者说多个特征之间的交互关系。
因此可以通过Deep Network来建模更高阶的特征之间的关系。
然而Wide&deep和deepcross因为其深度结构而难以训练。
故 FM和深度网络DNN的结合也就成为了CTR预估问题中主流的方法。
有关FM和DNN的结合有两种主流的方法，并行结构和串行结构。
两种结构的理解以及实现如下表所示：

Introduction

最近几年，Embedding-based方法开始成为主流，通过把高维稀疏的输入embed到低维度的稠密的隐向量空间中，模型可以学习到训练集中没有出现过的特征组合。

Embedding-based大致可以分为两类：

factorization machine-based linear models
neural network-based non-linear models

而这两者都有其缺陷：

FM还是属于线性模型，它的表达能力受限，而且它只能对二阶组合特征进行建模。
虽然多层神经网络已经被证明可以有效的学习高阶特征组合。但是DNN的缺点也很明显：网络优化或者说网络学习比较困难。

但是为了提高NN的学习能力就需要增加网络层数，复杂的网络结构会收到诸如梯度消失/爆炸、过拟合、degradation（简单说就是：随着网络层数的增加，训练准确率不升反降，非常反常）等问题的困扰，网络的学习或者优化会非常困难。

如下图所示，如果使用FM预训练初始化嵌入层，Wide&Deep和DeepCross性能都提升了，甚至超过了FM。Wide&Deep的degradation问题也解决了，因为训练集的性能得到了提升。但是两者依旧都有过拟合的问题。实验说明DNN的训练学习真的存在困难。
在这里插入图片描述

FM摒弃了直接把嵌入向量拼接输入到神经网络的做法，在嵌入层之后增加了Bi-Interaction操作来对二阶组合特征进行建模。这使得low level的输入表达的信息更加的丰富，极大的提高了后面隐藏层学习高阶非线性组合特征的能力。

Architecture

NFM的表达式如下：
$\hat{y}_{N F M}(\mathbf{x})=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+f(\mathbf{x})$
其中第一项和第二项是与FM相似的线性回归部分，该部分模拟数据的偏差和特征的权重。第三项f (x)是NFM建模特征交互的核心组件，它是一个多层前馈神经网络。如下图：
在这里插入图片描述