[ML]机器学习_协同过滤算法

原创

已于 2023-12-26 15:49:22 修改 · 1.2k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

于 2023-11-26 19:28:12 首次发布

本文围绕推荐系统展开，介绍了协同过滤算法，包括基于用户和基于物品的类型、优缺点及冷启动问题的解决方法。还阐述了二进制标签、均值归一化的定义与应用，给出协同过滤算法的代码实现，并说明了寻找相关特征的常见方法及示例，助力提升推荐准确度。

一、推荐系统

1、提出建议

2、制定代价函数

二、协同过滤算法(Collaborative Filtering Algorithm)

一、推荐系统

1、提出建议

在典型的推荐系统中，有一定数量的用户和一定数量的项目。在这种情况下，目的是给用户推荐可能感兴趣的项目。

假设有一家大型电影流媒体网站，用户可以对电影进行评级。用 $n_{u}$ 来表示用户数量，这里 $n_{u}=4$ ， $n_{m}$ 表示为项目数，在例子中电影有5部所以 $n_{m}=5$ 。如果用户 $j$ 对电影 $i$ 进行了评分，得到 $r(i,j)$ 的值为1，没有进行评分则值为0。如用户Alice对电影1进行了评分， $r(1,1)=1$ ，但是对电影3没有进行评分，则 $r(3,1)=0$ ，即为是否评分的标签。 $y^{(i,j)}$ 则为用户 $j$ 给电影 $i$ 的评分， $y^{(3,2)}=4$ 即为2号用户Bob给3号电影的评分为4分。

添加两个关于电影的特征x1和x2，引入 $n$ 作为表示特征数量的值， $x^{(i)}$ 为第i个电影的特征向量。

则预测用户 $j$ 对电影 $i$ 的评分可以通过以下公式，

这里的参数 $w^{(j)}$ 和 $b^{(j)}$ 是用来预测用户 j 对电影 i 的评分的参数， $x^{(i)}$ 是电影 i 的特征。

2、制定代价函数

$m^{(j)}$ 用来表示用户 j 评价的电影数量。

在给定的数据情况下学习参数 $w^{(j)}$ 和 $b^{(j)}$ ，制定相关的代价函数。

在只关注用户j的情况下，使用均方误差，即预测值减去真实值，然后平方。选择参数w和b来最小化预测值与实际值之间的平方误差，求平方误差和时，仅对用户实际评分过的项目 $r(i,j)=1$ 做求和计算，最后可以对平方误差和除以 $2m^{(j)}$ 进行归一化计算，末尾加上防止过拟合的正则化项，正则化项中的k=n中n是指电影的特征数量n。事实证明，对于推荐系统，实际消除 $m^{(j)}$ 会方便， $m^{(j)}$ 只是该表达式中的一个常数，最终得到的值不会有影响。最小化这个代价函数会获得一组参数来预测用户 j 对其他电影的评分。