问题描述
在这里,我们将谈论的问题是评级预测问题。我们的数据是评级历史数据,即用户对项目的评级,值区间是[1,5]。我们可以把数据放在一个稀疏矩阵R
中:
R=⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜1?2??5????1?2?43????5?3??4???2⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟AliceBobCharlieDanielEricFrank R = ( 1 ? 2 ? ? ? ? ? ? 4 2 ? 4 5 ? ? ? 3 ? ? ? 1 ? 3 ? 5 ? ? ? 2 ) Alice Bob Charlie Daniel Eric Frank
矩阵的每一行对应一个给定用户,每一列对应一个给定项目。譬如,在上面的矩阵中,Alice对第一个项目的评级是1,Charlie对第三个项目的评级是4。在我们的问题中,我们将认为项目是电影,(电商领域是商品),在后面会交替使用“项目”和“电影”这两个术语。
SVD矩阵分解
Rm×n=Mm×mΣm×nUTn×n R m × n = M m × m Σ m × n U n × n T
降维:Rm×n=Mm×rΣr×rUTr×n 降 维 : R m × n = M m × r Σ r × r U r × n T
如果 R R 是密集的,我们可以很容易计算 :
- M M 的列是 的特征向量
- The columns of M M can build back all of the columns of
- U U 的列是 的特征向量。
- The columns of U U can build back all of the rows of
- Σ Σ 的对角元素来源于 RRT或RTR R R T 或 R T R 的特征值的平方根,并且是按从大到小的顺序排列的
但是, R R 是稀疏的,矩阵 和