Factorization Machine

最新推荐文章于 2020-12-15 14:49:46 发布

最新推荐文章于 2020-12-15 14:49:46 发布 · 724 阅读

文章标签：

#机器学习 #推荐系统

推荐系统专栏收录该内容

1 篇文章

订阅专栏

本文探讨了在线性回归等模型中处理稀疏数据的方法，并引入了Field-aware Factorization Machine (FFM) 来解决高维稀疏数据带来的挑战。通过改进交叉项参数的计算方式，FFM能有效利用有限的非零特征，提高模型预测精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

对过于稀疏的数据进行优化，以线性回归为例：

原始模型

$y^{hat} = w_0 +\sum_{i=1}^n w_i * x_i$ (1)
只能对存在的线性关系进行讨论
在实际问题中，以推荐系统为例，很多特征只有同时出现时才有价值，如“USA”与“Thanksgiving”、“China”与“Chinese New Year”这样的关联特征。
作为改进需要加入交叉项，加入度为2的交叉项之后公式更新为
$y^{hat} = w_0 +\sum_{i=1}^n w_i * x_i + \sum_{i = 1}^{n-1}\sum_{j = i+1}^{n} w_{ij}*x_i*x_j$ (2)
当度增加时，可以向上扩展，使用类似三个四个或是更多数据之间的interaction
这种做法有一个缺陷在于， $w_{ij}$ 的更新同时依赖于 $x_i$ 和 $x_j$ 两项数据，当其中一项为0时，会导致乘积为0，在进行梯度下降会导致无法对参数 $w_{ij}$ 进行更新,在稀疏数据中这种现象更加普遍

改进

使用两个向量 $v_i$ 和 $v_j$ 的内积作为新的 $w_{ij}$ ，即 $x_i$ 和 $x_j$ 之间interaction的大小
当对其中的某一个参数，如 $v_j$ 进行优化时，会遍历所有的 $(i,j)$ 对，只要 $x_i$ 和 $x_j$ 同时不为0就会对参数的更新产生作用，而所有的符合要求的 $(i,j)$ 对会共同对参数的更新产生作用，因为此时参数只固定了一个下标，另一个下标可为任意值，所有的影响进行叠加。
对于之前的 $w_{ij}$ 而言，没有自由度，其更新由唯一的 $(i,j)$ 对决定，但是在稀疏数据下，往往都为0，无法更新参数
同时若记 $v_i$ 和 $v_j$ 维度为k，则将 $n^2$ 个交叉项参数减少到 $kn$ 个
(1)式更新为
$y^{hat} = w_0 +\sum_{i=1}^n w_i * x_i + \sum_{i = 1}^{n-1}\sum_{j = i+1}^{n}<v_i, v_j>*x_i*x_j$ (3)

形式化

仔细观察会发现，每一个 $v_i$ 其实对应一个数据集中的一个特征，那么得到一个新的矩阵 $V = (v_1;v_2;v_3...v_n)$ ，进一步的， $VV^T = W$

FFM

更进一步，提出Filed-aware Factorization Machine
对于类别特征 $feature_i$ ，从中one-hot编码得到的每一个特征都记为一个field，如特征Day有三种取值
Day=26/11/15”、“Day=1/7/14”、“Day=19/2/15”，编码之后使用三个二值特征表示，但是计入同一个field，那么假设one-hot编码之后一条记录的长度是n维，共有f个field，进一步将交叉项的参数减少为 $f*n$ 个
对于 $feature_k$ ，对于每一个 $field_j$ 都会计算一个向量 $v_{kj}$ ,在FM模型中，每一维特征的隐向量只有一个。FM可以看作FFM的特例，是把所有特征都归属到一个field时的FFM模型。
记 $f_j$ 是第 j 个特征所属的field，则(3)更新为
$y^{hat} = w_0 +\sum_{i=1}^n w_i * x_i + \sum_{i = 1}^{n-1}\sum_{j = i+1}^{n} <v_{i,f_j}, v_{j, f_i}>*x_i*x_j$

打完收工