文章主要研究点
- 本文的对潜在因子模型和邻域模型进行了平滑合并,目的:建立更精确的组合模型,利用用户显式和隐式反馈进一步提高了精度
- 在top-K推荐任务中的新的评估指标
1.邻域模型
目标:预测用户u对项目i的评级,并通过相似性识别出u对i相似的项目的评分
2.潜在因子模型
目标:更全面的揭示潜在特征,从而解释观察到的评级。文章主要关注SVD(待学)的模型。
已有模型的问题:
最近邻:最近邻方法根据用户已经打分过的物品或者用户间相似性,计算和这些物品最相似的物品,相当于一个局部最优解,没有考虑全局性,毕竟一个用户关注的物品是有限的。
因子分解:可以得到全局表示,但是可解释性不佳
方法的改进
已有最近邻模型
1.根据用户和物品的打分矩阵或者相关数据,计算两两之间的相似度s(i,j)s(i, j)s(i,j)
2.对于稀疏矩阵需要对数据规模进行置信度加权,常用的加权方法sij=nijnij+λPijs_{ij}=\frac{n_{ij}}{n_{ij}+\lambda}P_{ij}sij=nij+λnijPij
3.用户对物品打分公式为rui=bui+∑j∈Si;uksij(ruj−buj)∑j∈Si;uk,其中bui为基准推荐模型,计算公式bui=μ+bu+bi,r_{ui}=b_{ui}+\frac{\sum_{j\in S_{i;u}^k s_{ij}(r_{uj}-b_{uj})}}{\sum_{j\in S_{i;u}^k}},其中b_{ui}为基准推荐模型,计算公式b_{ui}=\mu+b_u+b_i,rui=bui+∑j∈Si;uk∑j∈Si;uksij(ruj−buj),其中bui为基准推荐模型,计算公式bui=μ+bu+bi,即全局偏置+用户偏置+物品偏置;Si;uk表示用户关注的物品集合中和物品i最相似的k个即全局偏置+用户偏置+物品偏置;S_{i;u}^k表示用户关注的物品集合中和物品i最相似的k个即全局偏置+用户偏置+物品偏置;Si;uk表示用户关注的物品集合中和物品i最相似的k个
已有因子分解模型
min∑rui≠0(rui−μ−bu−bi−puTqi)2+λ(∣∣pu∣∣2+qi∣∣2+bu2+bi2)min\sum_{r_{ui\neq 0}}(r_{ui}-\mu-b_u-b_i-p_u^Tq_i)^2+\lambda(||p_u||^2+\\q_i||^2+b_u^2+b_i^2)minrui̸=0∑(rui−μ−bu−bi−puTqi)2+λ(∣∣pu∣∣2+qi∣∣2+bu2+bi2)
新的邻域模型
将SVD++和最近邻模型加入隐式模型并对邻域个数归一化相加。
相当于三层模型的累加:基准模型,因子分解模型,最近邻模型
结论
缺点:对隐式数据集建模比较简单,对隐式数据的处理不充分。