Factorization Machines ---- FM模型论文阅读笔记及相关推导

FM模型解析

最新推荐文章于 2024-05-04 18:06:51 发布

原创

最新推荐文章于 2024-05-04 18:06:51 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #FM

Introduction

在类似协同过滤的场景下，SVM的作用不如一些如PARAFA等直接进行矩阵因子分解的模型。

Why:
因为在含有大量稀疏数据的场景下，SVM不能从复杂的核空间中学到可靠的超平面。

FM的优点:

能在高维稀疏数据的场景下进行参数估计（SVM并不擅长）。
能关联变量间的相互作用。
线性的计算时间，线性的参数量
可以使用任意实数域的特征向量进行预测（其他因子分解模型对输入数据非常严格）

Prediction under sparsity

最普遍的CTR场景是通过训练集
$D=\{(x^{(1)} ,y^{(1)}),(x^{(2)} ,y^{(2)}),...\}$

估计一个函数：
$y:R^n \to T$

从 $\in R^n$ 特征向量映射到目标域 $T$

Factorization Machine Model

定义

$y^(x):=w0+∑i=1nwixi+w^i,jxixj \hat{y}(\boldsymbol x) := w_0 + \sum_{i=1}^{n}w_ix_i+\hat w_{i,j}x_ix_j$
可转化为：
$y^(x):=w0+∑i=1nwixi+∑i=1n∑j=i+1n<vi,vj>xixj \hat{y}(\boldsymbol x) := w_0 + \sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n}\sum_{j=i+1}^{n}<v_i,v_j>x_ix_j$
其中:

（1）
$w_0 \in \mathbb{R} ,\boldsymbol w \in \mathbb{R}^n,\boldsymbol V \in \mathbb{R}^{n \times k}$
（2）<·，·> 为两个K维向量的点乘（K为超参数）
$<v_i,v_j> := \sum_{f=1}^{k}v_{i,j}·v_{j,f}$
因为实践中通常没有足够数据去预估 $W^\hat W$ 因此K值选择数值较小的值。

（3）
$w^i,j:=<vi,vj> \hat \boldsymbol w_{i,j} := <v_i,v_j>$
代表第i个变量和第j个变量的相互关系(interaction)，因为任意正定矩阵存在一个矩阵 $V\boldsymbol V$ 令 $W=V⋅VT\boldsymbol W = \boldsymbol V · \boldsymbol V^\mathrm{T}$ ,因此使用因子分解后的 $V$ 进行转化。

推导

在数据非常稀疏的场景下，由于大部分特征 $x_{i},x_{j}$ 的值为0，因此很难直接求解出 $W^\hat W$ ，因此通过引入辅助变量 $V_{i}=(v_{i1},v_{i2},...,v_{ik})$ 。
$\begin{pmatrix} v_{11}&v_{12}&... &v_{1k} \\ v_{21}&v_{22}&... &v_{2k} \\ \vdots &\vdots& & \vdots\\ v_{n1}&v_{n2}&... &v_{nk} \end{pmatrix}_{n \times k}=\begin{pmatrix} \boldsymbol v_{1} \\ \boldsymbol v_{2} \\ \vdots \\ \boldsymbol v_{n} \end{pmatrix}$