搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多人工智能、机器学习干货
csdn:https://blog.youkuaiyun.com/qq_36645271
github:https://github.com/aimi-cn/AILearners
第二章 单变量线性回归
2.1 模型表示
2.1.1 知识回顾
首先,让我们回顾一下什么是监督学习:对于数据集中每个数据来说,我们给出“正确答案”。其中,最常用的监督学习算法解决的两类问题包括:
- 回归问题:使用监督学习算法预测线性输出。例如通过房子的面积来预测房价。
- 分类问题:使用监督学习算法预测离散输出。例如通过肿瘤的大小来预测肿瘤是良性的还是恶性的。
在本章我们先介绍回归问题
2.1.2 线性回归数据集的表示
以之前房屋交易问题为例,假设我们的线性回归问题中使用的数据集(Training Set)如下:
我们将用来描述这个数据集的一些符号定义如下:
- m——数据集中数据的总量。
- x——输入的变量(input variable)/特征(features)。
- y——输出的变量(output variable)/“目标变量(target variable)”。
- (x,y)——训练集中的一实例。
- (x(i),y(i))——训练集中第i个实例。
2.1.3 线性回归假设函数的表示
接下来我们用h来表示学习算法的解决方案,这个方案也被称为假设函数(hypothesis),在这里,h是一个从x到y的映射。
我们用$ h_\theta(x)=\theta_0+\theta_1x 来 表 示 假 设 函 数 h , 它 是 一 个 预 测 y 是 关 于 x 的 线 性 函 数 , 其 简 写 形 式 为 来表示假设函数h,它是一个预测y是关于x的线性函数,其简写形式为 来表示假设函数h,它是一个预测y是关于x的线性函数,其简写形式为 h(x) $。回到房价预测的例子中,我们其实是将训练集“喂”给我们的学习算法,进而得到一个假设函数h,然后再将我们要预测的房屋尺寸的变量“喂”给假设函数h,从而预测出房屋的价格。
由于在上面的假设函数只输入了一个特征,所以这样的问题叫做单变量线性回归问题(linear regression with one variable)。
2.2 代价函数
2.2.1 提出问题
我们给定数据集与假设函数,那么该如何对参数进行选择。
代价函数(cost function)有助于我们弄清楚如何用一条更好的直线将我们的训练集中的数据进行拟合。
2.2.2 代价函数
接下来我们要做的便是为我们的模型即选择合适的参数(parameters)$\theta_0 $和 θ 1 \theta_1 θ1,使得假设函数 h θ ( x ) h_\theta(x) hθ(x)尽量接近我们训练数据集中的y。我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度。模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)。
在线性回归中,我们要解决一个最小化问题,尽量减少假设输出与真实数据之间的平方差,在对所有训练样本进行分求和,最后尽量减小平方误差,在这里我们给出**代价函数(cost function)**的数学定义定义如下:
J ( θ 0 , θ 1 ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y i ) 2 J(\theta_0,\theta_1)=\frac {1} {2m}\sum_{i=1} ^m(h_\theta(x^{(i)})-y^i)^2 J(θ0,θ1)=2m1i=1∑m(hθ(x(i))−yi)2
代价函数也被称作平方误差函数,有时也被称为平方误差代价函数,我们可以从上述公式所求预测值与真实值误差的平方看出。它是解决回归问题最常用的手段了。
由于上面的代价函数有两个参数,所以我们用matlab在三维空间中绘制出其图像如下图所示。从图像中我们可以很容易的找出使得 J ( θ 0 , θ 1 ) J(\theta_0,\theta_1) J(θ0,θ1)最小的点。
2.3 代价函数的直观理解I
单看代价函数的数学定义可能会有些抽象,那么现在让我们来通过一些例子来获取直观感受,弄清楚代价函数在干什么。
2.3.1 提出一个简化模型
结合根据上一节中的代价函数,我们提出一个完整的线性回归模型。
假设函数:$ h_\theta(x)=\theta_0+\theta_1x $
参数:$\theta_0 $, θ 1 \theta_1 θ1
代价函数: J ( θ 0 , θ 1 ) = 1 2 m Σ i = 1 m ( h θ ( x ( i ) ) − y i ) 2 J(\theta_0,\theta_1)=\frac {1} {2m}\Sigma_{i=1} ^m(h_\theta(x^{(i)})-y^i)^2 J(θ0,θ1)=2m1Σi=1m(