因子分解机公式推导（Factorization Machine）

最新推荐文章于 2024-09-19 14:09:34 发布

naive_zhang

最新推荐文章于 2024-09-19 14:09:34 发布

阅读量952

点赞数

CC 4.0 BY-SA版权

分类专栏： machine_learning

本文链接：https://blog.youkuaiyun.com/naive_zhang/article/details/103437691

machine_learning 专栏收录该内容

2 篇文章

订阅专栏

本文深入探讨了因子分解机（FM）模型，一种用于解决逻辑回归中特征交叉问题的先进算法。介绍了FM如何通过分解权重矩阵来有效学习交叉特征，特别适用于稀疏数据集。并详细解析了FM的数学原理，包括其核心计算公式及其简化过程，以及如何使用随机梯度下降算法进行参数优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本定义

在逻辑回归的分类公式中，传入给sigmoid函数的参数是特征的线性组合，计算如公式1所示。该公式的不足之处是没有考虑特征间的相互作用，而特征的相互作用（即特征交叉）是很重要的，例如在CTR预估场景，性别和购买行为就有很强的关联性，女性更愿意购买化妆品，而男性更愿意购买运动产品。为了考虑特征的相互作用，因子分解机（Factorization Machine，简称FM）显示地对两两特征交叉进行建模，计算如公式2所示。
$y(x)=w0+∑i=1nwixi(1)\begin{aligned} y(\mathbf x) & =w_0 + \sum_{i=1}^n w_i x_i \tag{1} \end{aligned}$

$y(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1nwijxixj(2)\begin{aligned} y(\mathbf x) & =w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n w_{ij} x_i x_j \tag{2} \end{aligned}$

对于离散特征而言，特征通常通过one-hot进行编码，one-hot编码后样本变得很稀疏，其中很多特征的取值为0，取值为1的特征只占很少部分。对于这样的样本，在学习交叉特征的权重 $w_{ij}$ 时会变得困难，例如当样本的特征 $x_i$ 和特征 $x_j$ 取值为0时，权重 $w_{ij}$ 无法学习。为了更好的学习交叉特征的权重，需要对权重矩阵分解，分解后权重 $w_{ij}$ 可以表示为两个隐向量的内积，计算如公式3所示。

$y(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1n<vi,vj>xixj(3)\begin{aligned} y(\mathbf x) & =w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n <\mathbf v_i,\mathbf v_j>x_i x_j \tag{3} \end{aligned}$

其中隐向量 $vi\mathbf v_i$ 可以表示为 $vi\mathbf v_i$ =( $v_{i,1}$ , $v_{i,2}$ ,…, $v_{i,k}$ )，k为隐向量的维度，进一步可以得到因子分解机(FM)的计算公式。

$y(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1n∑t=1kvi,tvj,txixj(4)\begin{aligned} y(\mathbf x) & =w_0 + \sum_{i=1}^n w_i x_i + \sum_{i=1}^n \sum_{j=i+1}^n \sum_{t=1}^k v_{i,t} v_{j,t} x_i x_j \tag{4} \end{aligned}$

数学推导

首先公式4中的交叉项可以推导简化，具体推导过程如下：

$∑i=1n∑j=i+1n<vi,vj>xixj=12(∑i=1n∑j=1n<vi,vj>xixj−∑i=1n<vi,vi>xixi)=12(∑i=1n∑j=1n∑t=1kvi,tvj,txixj−∑i=1n∑t=1kvi,tvi,txixi)=12∑t=1k(∑i=1n∑j=1nvi,tvj,txixj−∑i=1nvi,tvi,txixi)=12∑t=1k((∑i=1nvi,txi)(∑j=1nvj,txj)−∑i=1nvi,t2xi2)=12∑t=1k((∑i=1nvi,txi)2−∑i=1nvi,t2xi2)\begin{aligned} \sum_{i=1}^n \sum_{j=i+1}^n <\mathbf v_i,\mathbf v_j> x_i x_j & = \frac 12 (\sum_{i=1}^n\sum_{j=1}^n <\mathbf v_i,\mathbf v_j>x_i x_j -\sum_{i=1}^n<\mathbf v_i,\mathbf v_i> x_i x_i) \\ & =\frac 12 (\sum_{i=1}^n \sum_{j=1}^n \sum_{t=1}^k v_{i,t} v_{j,t} x_i x_j-\sum_{i=1}^n \sum_{t=1}^k v_{i,t} v_{i,t} x_i x_i) \\ & = \frac 12 \sum_{t=1}^k(\sum_{i=1}^n \sum_{j=1}^n v_{i,t} v_{j,t} x_i x_j-\sum_{i=1}^n v_{i,t} v_{i,t} x_i x_i) \\ & = \frac 12 \sum_{t=1}^k \Biggl((\sum_{i=1}^n v_{i,t}x_i)( \sum_{j=1}^nv_{j,t}x_j)-\sum_{i=1}^n v_{i,t}^2x_i^2\Biggr) \\ & =\frac 12 \sum_{t=1}^k\Biggl((\sum_{i=1}^n v_{i,t}x_i)^2-\sum_{i=1}^n v_{i,t}^2x_i^2\Biggr) \end{aligned}$

为了求得最优的参数 $w_i$ 和 $v_{i,t}$ ，可以应用随机梯度下降算法对参数求偏导数，具体的推导公式如下：

$\frac{\partial y(\mathbf x)}{\partial \theta}=\begin{cases} 1 & if \theta=w_0\\ x_i & if \theta=w_i\\ x_i\sum_{i=1}^nv_{i,t}x_i- v_{i,t}x_i^2 & if \theta=v_{i,t} \end{cases}$