机器学习方法：回归（一）：线性回归Linear regression

最新推荐文章于 2024-10-18 10:25:47 发布

weixin_30617797

最新推荐文章于 2024-10-18 10:25:47 发布

阅读量4.5k

点赞数 1

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/yihaha/p/7265328.html

本文是机器学习方法科普系列的第一篇，主要介绍了线性回归的基本概念、模型和Least Square损失函数。线性回归是机器学习中最简单的模型之一，但其重要性不言而喻。文章还提及了线性回归的几何解释和在多维情况下的超平面表示，以及在某些假设下的协方差矩阵推导。后续文章将讨论Lasso和Ridge回归。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎转载，转载请注明：本文出自Bin的专栏blog.youkuaiyun.com/xbinworld。

开一个机器学习方法科普系列：做基础回顾之用，学而时习之；也拿出来与大家分享。数学水平有限，只求易懂，学习与工作够用。周期会比较长，因为我还想写一些其他的，呵呵。

content:
linear regression, Ridge, Lasso
Logistic Regression, Softmax
Kmeans, GMM, EM, Spectral Clustering
Dimensionality Reduction: PCA、LDA、Laplacian Eigenmap、 LLE、 Isomap（修改前面的blog）
SVM
ID3、C4.5
Apriori，FP
PageRank
minHash, LSH
Manifold Ranking，EMR
待补充
…
…

开始几篇将详细介绍一下线性回归linear regression，以及加上L1和L2的正则的变化。后面的文章将介绍逻辑回归logistic regression，以及Softmax regression。为什么要先讲这几个方法呢？因为它们是机器学习/深度学习的基石（building block）之一，而且在大量教学视频和教材中反复被提到，所以我也记录一下自己的理解，方便以后翻阅。这三个方法都是有监督的学习方法，线性回归是回归算法，而逻辑回归和softmax本质上是分类算法（从离散的分类目标导出），不过有一些场合下也有混着用的——如果目标输出值的取值范围和logistic的输出取值范围一致。

ok，废话不多说。

1、Linear Regression

可以说基本上是机器学习中最简单的模型了，但是实际上其地位很重要（计算简单、效果不错，在很多其他算法中也可以看到用LR作为一部分）。

先来看一个小例子，给一个“线性回归是什么”的概念。图来自[2]。

这里写图片描述
假设有一个房屋销售的数据如下：
面积(m^2) 销售价钱（万元）
123 250
150 320
87 160
102 220
… …

当我们有很多组这样的数据，这些就是训练数据，我们希望学习一个模型，当新来一个面积数据时，可以自动预测出销售价格（也就是上右图中的绿线）；这样的模型必然有很多，其中最简单最朴素的方法就是线性回归，也就是我们希望学习到一个线性模型（上右图中的红线）。不过说是线性回归，学出来的不一定是一条直线，只有在变量x是一维的时候才是直线，高维的时候是超平面。

定义一下一些符号表达，我们通常习惯用X=(x1,x2,...,xn)T∈Rn×p表示数据矩阵，其中xi∈Rp表示一个p维度长的数据样本；y=(y1,y2,...,yn)T∈Rn表示数据的label，这里只考虑每个样本一类的情况。