stanford ml note 1（线性回归）_unweighted linear linear regression-优快云博客

本文链接：https://blog.youkuaiyun.com/skywalkerVVV/article/details/8438440

一、监督学习概念

supervised learning 监督学习

input feature 例如 xi = （a,b,c,d）例如（房屋面积，房间个数，房屋年代）

target variable 例如yi 例如 yi=房屋价格

training example 例如（xi,yi)

training set training example的集合

hypothesis 一个函数 h（x）

supervised learning的目的（什么是supervised learning）

given a training set, to learn a function h : X → Y，（xi 属于X，yi属于Y） so that h(x) is a“good” predictor for the corresponding value of y.

下图就是一个监督学习的过程图：

监督学习读入一个 training set（每一个元素是（xi,yi)），通过一个学习算法，得到一个hypothesis（函数）。这个hypothesis能够对新的 input feature进行预测得到新的output variable ---- y。

两类监督学习：

当target value 是一小搓离散的值就，这就叫做分类问题 --- classification

要预测的目标变量是连续的，就叫做回归问题。---regression

二、线性回归 linear regression

线性回归顾名思义就知道回归得到的hypothesis是一个线性函数

例如我们的 training example是（xi,yi） xi 是二维的，例如房屋的xi=（面积, 房间数目)。yi代表房屋的总价

那么线性回归就是需要得到一个线性拟合函数 h(xi) = θ1x1 + θ2y1+θ3 = A*X

其中A=（θ1,θ2,θ3）,X=(x1,y1,1) ，它们都是向量。

为了定义h（Xi）与yi有多接近我们定义一个cost function：

J(A) = (1/2)*(h(Xi) - yi)**2 （平方）

这就是我们熟悉的最小二乘法则。

为什么 J(A)最小的时候就是最佳拟合呢？下面是从概率的角度来分析

最小二乘的概率论解释

从上面可以看出 J（A）最小与最大似然函数最大是等价的。

三、最小均方算法

怎么求一个A=(θ1,θ2,θ3)使得 J（A）最小呢？

下面就是一个算法 LMS （least mean square 最小均方算法）

J（A） = (1/2)*(h(Xi) - yi)**2

= (1/2)*(θ1*x1 +θ2*y1+θ3 - yi)**2

J（A）对θ1求偏导，得到偏导数：j1= (θ1*x1 +θ2*y1+θ3 - yi) *x1

J（A）对 θ 2求偏导，得到偏导数：j2 = (θ1*x1 +θ2*y1+θ3 - yi) *y1

J（A）对 θ 3求偏导，得到偏导数：j3 = (θ1*x1 +θ2*y1+θ3 - yi)

（j1,j2,j3）就是 J（A）在A=（θ1,θ2,θ3）点的梯度（gradient）。梯度就是最陡的方向，也就是 J（A）变小最快的方向。我们可以想像，在（j1,j2,j3）方向走一小步，得到一个新的点 A’=（θ1' , θ2' , θ3'）, J（A'）就会比J（A）小，重复这个过程就可以得到J（A）的最小值。从而得到一个 Ai = （ θ1 i, θ2 i, θ3 i）使得J（Ai）取得局部（全局）最小值。

这个过程叫做：递归下降

例如每一个小步的长度是step。每一次迭代的过程就是

θ1= θ1 + step * (θ1*x1 +θ2*y1+θ3 - yi) *x1

θ2= θ2 + step * (θ1*x1 +θ2*y1+θ3 - yi) *y1

θ3= θ3 + step * (θ1*x1 +θ2*y1+θ3 - yi)

这样就得到一个新的点了。J（A）在这个点比上一次迭代跟小

这是在一个点的情况下：当有n个点的情况下也是相同滴，只不过是对n个J（A）的和进行求偏导数。

LMS 每一次都必须遍历整个training set，非常耗时，一般不采用这种方法，但是要理解它的思想

下面一种方法叫随机递归下降（stochastic gradient descent）它之遍历一遍training set。例如下面所示：有m个training exapmle的training set.

四、局部加权回归 locally weight regression。

有些training set 的线性相关性，不是很好，如果使用线性回归的话就可能参数 underfitting （欠拟合）。如果我们使用更为复杂的回归方程，例如引入 x**2 x**3.那么可能造成overfitting（过度拟合）。

对于这种情况我们就可以使用 LWR，尽管在整个training set 线性相关性不是很好，但是给定一个trainning example，在离这个training example 不远的局部，线性相关性应该还是很好滴。