核岭回归:从理论到啤酒风格推荐的实践
1. 回归与协同过滤概述
回归是机器学习中最常用的工具之一,其基本思想是找到一条能拟合从X到Y映射数据的直线。线性回归是预测数据的一个不错起点,但在处理数据点较少或非线性的数据时,效果不佳。
协同过滤在日常生活中很常见,比如在亚马逊购物时,系统会根据用户的购买行为推荐相关产品。协同过滤通常有两个部分:
- 找到与你口味相同的用户。
- 利用这些志同道合用户的评分进行推荐。
解决协同过滤问题有三种方法:
- 暴力法:一种简单直接的方法,但随着时间推移,速度会呈指数级下降。
- K近邻搜索:在之前有所了解,它比较“懒惰”,前期成本较低,但对数据有一定假设,且通过该搜索能了解到的用户信息有限。
- 回归:能得到一条将特征与用户是否喜欢产品相匹配的直线,可根据回归系数确定用户喜好,还能利用矩阵代数快速计算答案,是较好的选择。
2. 线性回归在协同过滤中的应用
线性回归的目标是找到一条最能近似数据集的直线。例如,根据身高预测体重,虽然存在很多异常值,但回归的目的是回归到均值。线性回归的主要目标是最小化数据的平方误差,即:
[min \sum_{i}^{n} (y - \hat{y})^2]
其中,(\hat{y})是回归模型的输出。线性回归的形式为(y = \alpha + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n),(\beta)是通过最小化上述函数得到的系数。
可以使用Moore - Penrose伪逆来计算系数(\beta),公式为:
[\beta = (
超级会员免费看
订阅专栏 解锁全文
1598

被折叠的 条评论
为什么被折叠?



