FM和FFM的知识总结（特征组合、公式化简、FM与FFM之间的联系与区别）

最新推荐文章于 2024-07-14 17:55:32 发布

原创

最新推荐文章于 2024-07-14 17:55:32 发布 · 3.6k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#推荐

本文深入探讨了FM（Factorization Machine）和FFM（Field-aware Factorization Machine）模型，旨在解决稀疏数据的特征组合问题。FM通过分解特征组合参数为隐向量的内积，降低模型复杂度，而FFM则引入域概念，让隐向量与特征所属域相关，进一步优化特征交互。内容涵盖了模型公式、优缺点以及FFM在处理样本归一化和零值特征方面的策略。

FM

参考链接：

是2010年Stedden Rendle提出的，目的是解决稀疏数据的特征组合问题。

逻辑回归

公式1
$y=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}$
$w_{0},w_{i}$ 是参数， $n$ 表示数据总量， $x_{i}$ 表示某条数据。

二阶多项式模型（Poly2模型）

公式2
$\hat{y}(\mathbf{x})=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n} w_{i j} x_{i} x_{j}$
一次项有 $n + 1$ 个，二次项（即组合特征的参数）共有
$\frac{d(d-1)}{2}$ ，而参数与参数之间彼此独立，在稀疏场景下，二次项的训练是很困难的。因为要训练 $w_{ij}$ ,需要大量的 $x_{i}$ 和 $x_{j}$ 都非0的样本（只有非0组合才有意义）。而样本本身是稀疏的，满 $x_{i} x_{j} \neq 0$ 的样本会非常少，那么样本少就难以估计参数 $w_{ij}$ ，训练出来的模型容易过拟合。

为了缓解上述问题，Rendle在2010提出了FM模型，它可以缓解公式2，特定如下：

FM模型可以在非常稀疏的情况下进行参数估计
FM模型是线性时间复杂度的，可以直接使用原问题进行求解，而且不用像SVM一样依赖支持向量。
FM模型是一个通用的模型，其训练数据的特征取值可以是任意实数。
###对参数 $W_{ij}$ 进行分解

公式3
$\hat{y}(\mathbf{x})=w_{0}+\sum_{i=1}^{d} w_{i} x_{i}+\sum_{i=1}^{d} \sum_{j=i+1}^{d}\left(\mathbf{v}_{i} \cdot \mathbf{v}_{j}\right) x_{i} x_{j}$
其中 $v_{i}$ 是第 $i$ 维特征的隐向量,其长度为 $k (k < < n)$ , $\left(\mathbf{v}_{i} \cdot \mathbf{v}_{j}\right)$ 为内积，其乘积为原来 $w_{ij}$ , 也就是
$\hat{w}_{i j}=\left(\mathbf{v}_{i} \cdot\mathbf{v}_{j}\right)=\sum_{f=1}^{k} v_{i, f} \cdot v_{j, f}$ 。

将 $w_{ij}$ 进行分解，使得不同的特征对不再是完全独立的，而它们的关联性可以用隐式因子表示，这将使得有更多的数据可以用于模型参数的学习。比如 $x_i$ , $x_j$ 与 $x_i$ , $x_k$ 的参数分别为： $v_i,v_j⟩$ 和 $v_i,v_k⟩$ ，它们都可以用来学习 $v_i$ ，更一般的，包含 $x_{i} x_{j} \neq 0 \& i \neq j$ 的所有样本都能用来学习 $v_i$ ，很大程度上避免了数据稀疏性的影响。