线性回归

线性回归是一种预测连续值的模型,通过最小化均方误差来拟合数据。文章介绍了线性回归的模型函数、误差函数,详细解释了最小二乘法的求解过程及其局限性,包括特征过多和计算复杂度问题,并提出了正则化和降维等解决策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

线性回归

线性回归,所谓“回归”是相对于“分类”而言的。线性回归中,对于一个输入样本 x x ,经过线性回归变换,其预测的输出值是一个连续值。

1 模型函数

f(x)=i=1nωixi+b

在线性回归模型中,输入样本 x x 表示有n维特征一组输入,xi表示 x x 的第i个分量; ω ω 是一个1*n的向量, ω ω 中每一个分量 ωi ω i ,表示 x x 中第i个特征的的重要性度量( i i =1,2,…n);b是截距,表示预测值 ωx ω x 与真实值的差距。可以令 w0=b w 0 = b x0=1 x 0 = 1 ,简化该模型,即得:

f(x)=i=0nωixi f ( x ) = ∑ i = 0 n ω i x i

用向量形式表示即为:

f(x)=ωx f ( x ) = ω x

确定了 ω ω ,我们就可以确定一个模型。在机器学习中,常常通过大量的已知标签 y y 的数据去学得 ω ω 。在学习过程中,我们可能获得一系列的 ω ω ,因此可以建立多个线性回归模型,如何判定各个模型的好坏,还需引入误差函数(cost function)。

2 误差函数

线性回归中最常使用的误差函数是均方误差,对已知标签的一组 m m n列数据 X X ,每一行表示一个样本,用x(j)表示第j行样本,对应的样本标签为 yj y j 。数据集 X X 的预测结果与真实值的差异定义为:

J(w)=j=1m(yjf(x(j)))2=j=1m(yjωx(j))2

线性回归学习的目标是试图找到一条直线,使所有样本到这条直线的欧氏距离之和最小,即:

ω=arg min j=1m(yjωx(j))2 ω ∗ = arg min  ∑ j = 1 m ( y j − ω x ( j ) ) 2

通常有两种方法来求使损失函数最小时的 ω ω ∗ , 一种是最小二乘法,一种是梯度下降法。本文仅介绍最小二乘法,关于梯度下降法的知识参见梯度下降

3 最小二乘法

J(ω) J ( ω ) ωi(i=0,1,2...n) ω i ( i = 0 , 1 , 2 . . . n ) 求导并令导数为0可得: 2mj=1(ωx(j)yj)x(j)i=0(i=0,1,2,...n) 2 ∑ j = 1 m ( ω x ( j ) − y j ) x i ( j ) = 0 ( i = 0 , 1 , 2 , . . . n )
我们一共可得n+1个含有n+1元未知数( ω0ωn ω 0 到 ω n )的方程组, 联立方程组即可求解。

也可以用矩阵的形式进行表述。矩阵形式下误差函数为:

J(ω)=(yXω)T(yXω) J ( ω ) = ( y − X ω ) T ( y − X ω )

ω ω 求导,并令导数为0可得: 2XT(Xωy)=0 2 X T ( X ω − y ) = 0 , 即 Xω=y X ω = y , 也即 XTXω=XTy X T X ω = X T y 。当 XTX X T X 为满秩矩阵或正定矩阵, ω=(XTX)1XTy ω ∗ = ( X T X ) − 1 X T y
X X 的列数多于行数, XTX X T X 不满秩,存在多个 ω ω 满足 Xω=y X ω = y ,都能使误差函数最小。这时不能直接运用最小二乘法,我们可以使用梯度下降法或引入正则化项。正则化项最常见的是L1正则化和L2正则化,线性回归引入L1正则化称为Lasso回归,引入L2正则化称为Ridge。

4 最小二乘法回归的局限性

  1. 最小二乘法需要计算 XTX X T X 的逆矩阵,当 X X 的列数多于行数(即样本个数小于特征数)它的逆矩阵不存在,这样就没有办法直接用最小二乘法了,此时可以使用梯度下降法。当然,我们可以通过对样本数据进行降维,去掉冗余特征。让 XTX X T X 的行列式不为0,然后继续使用最小二乘法。也可以引入正则化项,让学习算法对最终求得的解有所偏好。
  2. 当样本特征n非常的大的时候,计算 XTX X T X 的逆矩阵非常耗时。
  3. 只对拟合函数是线性的有效。

参考阅读:

  1. 《机器学习》,周志华著;
  2. http://www.cnblogs.com/pinard/p/5976811.html
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值