Spark ALS算法理解

最新推荐文章于 2024-09-13 07:23:36 发布

原创

最新推荐文章于 2024-09-13 07:23:36 发布 · 2.2k 阅读

8 ·

CC 4.0 BY-SA版权

ALS(交替最小二乘法)是Spark推荐系统中用于求解模型最优解的算法，属于基于模型的协同过滤。它通过矩阵分解补全用户-物品矩阵，估计未知评分。相比SVD，ALS更适用于大规模数据，具有高度并行化特性，适用于稀疏矩阵，减少存储空间需求。ALS处理显性和隐性反馈，提供用户和物品推荐。

ALS算法
ALS的意思是交替最小二乘法（Alternating Least Squares），它只是是一种优化算法的名字，被用在求解spark中所提供的推荐系统模型的最优解。spark中协同过滤的文档中一开始就说了，这是一个基于模型的协同过滤（model-based CF），其实它是一种近几年推荐系统界大火的隐语义模型中的一种。隐语义模型又叫潜在因素模型，它试图通过数量相对少的未被观察到的底层原因，来解释大量用户和产品之间可观察到的交互。操作起来就是通过降维的方法来补全用户-物品矩阵，对矩阵中没有出现的值进行估计。基于这种思想的早期推荐系统常用的一种方法是SVD（奇异值分解）。该方法在矩阵分解之前需要先把评分矩阵R缺失值补全，补全之后稀疏矩阵R表示成稠密矩阵R'，然后将R’分解成如下形式：

$R' = U^{T}SV$