矩阵分解算法的求解随机梯度下降SGD和交替最小二乘ALS

苏宇-算法交易

已于 2022-05-23 20:47:58 修改

阅读量3.6k

点赞数 1

分类专栏：推荐系统文章标签：推荐系统矩阵分解随机梯度下降最小二乘 SGD

于 2019-12-26 16:25:13 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_42690752/article/details/103715543

版权

推荐系统专栏收录该内容

9 篇文章

订阅专栏

矩阵分解算法的求解随机梯度下降SGD和最小二乘ALS

1 优化时为何选择偏导数的负方向？
- 1.1 使用泰勒展开进行解释
- 1.2 使用图像进行解释
2 随机梯度下降算法(Stochastic Gradient Descent, SGD)
3 交替最小二乘算法(Alternating Least Squares, ALS)

1 优化时为何选择偏导数的负方向？

首先假设目标函数为 $m i n f (x)$
那么我们的关注点就是如何找到当前状态 $x^k$ 后的下一个状态点 $x^{k+1}$
$x^{k+1}=x^k+t_k\cdot p_k$
其中， $t_k$ 表示步长， $p_k$ 表示方向

1.1 使用泰勒展开进行解释

依据泰勒展开式
$f(x)=f(a)+\frac{f^{'}(a)}{1!}(x-a)+\frac{f^{''}(a)}{2!}(x-a)^2+\cdots+\frac{f^{(n)}(a)}{n!}(x-a)^n+R_n(x)$
因此
$f(x^k+t_kp_k)=f(x^k)+t^k\cdot \nabla f(x^k)^T\cdot p^k+o(\Vert t^k \cdot p^k \Vert)$
于是
$f(x^k)-f(x^k+t_kp_k)=-t^k\cdot \nabla f(x^k)^T\cdot p^k+o(\Vert t^k \cdot p^k \Vert)$
由于 $o(\Vert t^k \cdot p^k \Vert)$ 是高阶无穷小量，可以不考虑
若要使 $f(x^k)-f(x^k+t_kp_k)$ 最大，即下降的最多，又因为 $t^k$ 是不变的参数，因此就要使
$p^k=-\nabla f(x^k)^T$
即方向向量等于（偏）导数的负方向

1.2 使用图像进行解释

在这里插入图片描述
在适合的 $t_k$ 的情况下，x(k)点右侧的x(k+1)点可以使得函数值变小，那么如何找到x(k+1)点呢？答案是找f(x)在x(k)点处下降最快的方向，显然这个方向与f(x)在x(k)处的斜率有关系，但从图中可以看出 $\nabla f(x(k))$ 的方向是左上方，但显然我们需要的是到右下方去找下一个状态点。因此，方向向量等于（偏）导数的负方向。

2 随机梯度下降算法(Stochastic Gradient Descent, SGD)

SGD的思路就是让训练集中的每一条数据依次进入模型，不断优化变量。
要注意的是，因为是一条条进入模型，因此数据的顺序会对实验结果产生影响，
对于考虑时间因素的数据集，应按照时间顺序依次进入模型

以最基本的矩阵分解模型 $r_{ui}=q_i^Tp_u$ 为例
损失函数可以定义为 $J(p_u,q_i) =\frac{1}{2}\left( \sum (r_{ui}-q_i^Tp_u)^2 + \lambda(\Vert q_i \Vert^2 + \Vert p_u \Vert^2 ) \right)$
其中 $\lambda$ 是正则化系数，这里把对 $p_u$ 和 $q_i$ 的正则化系数设置为相同值，也可以为不同值，不使用括号即可
下面求损失函数对 $p_u$ 的偏导
$\frac{\partial J(p_u)}{\partial p_u} = (r_{ui}-q_i^Tp_u)(-q_i^T) + \lambda p_u$
常令
$e_{ui} = r_{ui}-q_i^Tp_u$
因此
$p_u = p_u - \eta \cdot \frac{\partial J(p_u)}{\partial p_u}= p_u+\eta(e_{ui}\cdot q_i - \lambda \cdot p_u)$
其中， $\eta$ 表示学习速率
同理
$q_i = q_i - \eta \cdot \frac{\partial J(q_i)}{\partial q_i}= q_i+\eta(e_{ui}\cdot p_u - \lambda \cdot q_i)$

3 交替最小二乘算法(Alternating Least Squares, ALS)

因为p和q两个变量未知，因此损失函数不是凸函数，无法使用凸优化求解。
但是，如果固定p，那么损失函数是只关于q的二次函数，用解二次函数方法。
因此，可固定p，求q；再固定q，求p，这样迭代下去，此即为交替一词出处。

$\frac{\partial J(p_u)}{\partial p_u} = (r_{ui}-q_i^Tp_u)(-q_i^T) + \lambda p_u=(q_i^T q_i + \lambda)p_u - r_{ui}q_i^T$
下面令 $\frac{\partial J(p_u)}{\partial p_u}=0$
写成矩阵形式
$(QQ^T+\lambda E)P=R_jQ^T$
$P=(QQ^T+\lambda E)^{-1}R_j$
同理
$Q=(PP^T+\lambda E)^{-1}R_i$