机器学习01：单变量线性回归及python实现_python单变量线性回归定义损失函数-优快云博客

本文介绍单变量线性回归的基本原理与应用实践，通过一个简单的案例解释如何使用梯度下降法来寻找最佳拟合直线，并提供了一段Python代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Regression 回归分析

线性回归

单变量线性回归

单变量的意思是只有一个自变量。

比如，我们想要根据明天的最高温度预测明天某城市的峰值用电量。我们不可能平白无故地预测明天的数据，而是需要根据以往的数据来预测以后的数据。因此，我们需要收集以往的数据，如下表：

最高温度（℉）	峰值用电量
76.7	1.87
72.7	1.92
71.5	1.96
86.0	2.43
90.0	4.69
87.7	2.50
…	…

散点图：
在这里插入图片描述

对于单变量线性回归，可表示为如下模型：
$当天峰值用电量=\theta_0+\theta_1·(当天最高温度)$
如果我们把这个模型函数放在上面的散点图中（三条直线的参数值不同）：
在这里插入图片描述

很显然，根据明天的最高温度预测明天的峰值用电量的问题，就转化成了在上面的图中找一条最吻合训练数据的直线，“最吻合”也就等价于选择合适的 $θ0\theta_0$ 和 $θ1\theta_1$ .

那么，我们应该怎么衡量“最吻合”呢？这就需要用到Loss Function（损失函数）了。

损失函数

$L(f(x)-y)=\sum_{i=1}^n(f(x_i)-y_i)^2=\sum_{i=1}^n((\theta_1x+\theta_0)-y_i)^2$

对于损失函数，我们需要注意以下两点：

损失函数值越小，越吻合（预测值与实际值差别越小）
损失函数值是非负的

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8EIUgaaI-1600340952863)(C:\Users\Administrator\OneDrive\机器学习\3.png)]$

因此这个问题就转换成了一个优化问题：
$minJ(\theta_0, \theta_1)=min(\frac{1}{2m}\sum_{i=1}^n((\theta_1x+\theta_0)-y_i)^2)\quad (m为样本个数)$
解决上面的优化问题主要用梯度下降法。

梯度下降法

上面说到：“最吻合”也就等价于选择合适的 $θ0\theta_0$ 和 $θ1\theta_1$ .在梯度下降法中，我们需要对 $θ0\theta_0$ 和 $θ1\theta_1$ 进行多次迭代计算，逐步逼近 $J(θ0,θ1)J(\theta_0, \theta_1)$ 的最小值。

那么，在每一次迭代中，我们应如何计算 $θ0\theta_0$ 和 $θ1\theta_1$ 呢？需要用到如下算法：

注意： $θ0\theta_0$ 和 $θ1\theta_1$ 是同步更新的。（也就是批处理：梯度下降的每一步都使用所有的训练样本）

附：相关计算步骤：
$∂J∂θ1=∂12n∑i=0n(yi−yi^)2∂θ1=1n∑i=0n(yi−θ1xi−θ0)∂(yi−θ1xi−θ0)(−xi)∂θ1=1n∑i=0n(yi−θ1xi−θ0)(−xi)=1n∑i=0nx(yi^−yi) \frac{\partial J}{\partial \theta_1}=\frac{\partial\frac{1}{2n}\displaystyle \sum_{i=0}^n(y_i- \hat{y_i})^2}{\partial \theta_1}=\frac{1}{n}\displaystyle \sum_{i=0}^n(y_i-\theta_1x_i-\theta_0)\frac{\partial(y_i-\theta_1x_i-\theta_0)(-x_i)}{\partial \theta_1}\\=\frac{1}{n}\displaystyle \sum_{i=0}^n(y_i-\theta_1x_i-\theta_0)(-x_i)=\frac{1}{n} \displaystyle \sum_{i=0}^nx(\hat{y_i}-y_i)$

$∂J∂θ0=∂12n∑i=0n(yi−yi^)2∂θ0=1n∑i=0n(yi−θ1xi−θ0)∂(yi−θ1xi−θ0)(−xi)∂θ0=1n∑i=0n(yi−θ1xi−θ0)(−1)=1n∑i=0n(yi^−yi) \frac{\partial J}{\partial \theta_0}=\frac{\partial\frac{1}{2n}\displaystyle \sum_{i=0}^n(y_i- \hat{y_i})^2}{\partial \theta_0}=\frac{1}{n}\displaystyle \sum_{i=0}^n(y_i-\theta_1x_i-\theta_0)\frac{\partial(y_i-\theta_1x_i-\theta_0)(-x_i)}{\partial \theta_0}\\=\frac{1}{n}\displaystyle \sum_{i=0}^n(y_i-\theta_1x_i-\theta_0)(-1)=\frac{1}{n} \displaystyle \sum_{i=0}^n(\hat{y_i}-y_i)$

$\theta_0=\theta_0-\alpha\frac{\partial J}{\partial \theta_0}$

$\theta_1=\theta_1-\alpha\frac{\partial J}{\partial \theta_1}$

你可能会对式中的 $α\alpha$ 很疑惑，不用担心，下面我们会讲到。

学习率 $α\alpha$

对于学习率，它代表了 $J(θ0,θ1)J(\theta_0,\theta_1)$ 在每一次迭代中的减小程度。

对于合适的 $α\alpha$ ， $J(θ0,θ1)J(\theta_0,\theta_1)$ 应该在每一次迭代中都减小

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3Jd5XMJl-1600340952864)(C:\Users\Administrator\OneDrive\机器学习\4.png)]$
如果 $α\alpha$ 太小，梯度下降算法则会收敛很慢

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-c5vI8yDk-1600340952865)(C:\Users\Administrator\OneDrive\机器学习\5.png)]$
如果 $α\alpha$ 太大，梯度下降算法则不会收敛：发散或震荡

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S7R5NBjM-1600340952866)(C:\Users\Administrator\OneDrive\机器学习\6.png)]$

为了找到合适的 $α\alpha$ ，我们可以不断尝试。

练习

拟合 $x$ 和 $y$

$x$	$y$
1	2
3	8
5	14

代码如下（python）：

'''
Description: 
Author: Weijian Ma
Date: 2020-09-16 18:47:40
LastEditTime: 2020-09-17 16:59:55
LastEditors: Weijian Ma
'''
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

## 数据及参数的初始化
x = [1, 3, 5] 
x = np.reshape(x,newshape=(len(x),1))
y =  [3, 6, 16] 
y = np.reshape(y,newshape=(len(y),1))
a = 1
b = 1
alpha = 0.1
n = len(x)

## 损失函数
def costFunction(a, b):
    return 0.5/n*(np.square(a*x+b-y)).sum()

## 优化
def opt(a, b):
    da = (1/n) * ((a*x+b-y)*x).sum()
    db = (1/n) * ((a*x+b-y).sum())
    a = a-alpha*da
    b = b-alpha*db
    return a, b

## 训练模型
fig = plt.figure(figsize=(12,8))
sub01 = plt.subplot(221)
sub02 = plt.subplot(222)
sub03 = plt.subplot(223)
sub04 = plt.subplot(224)

costList = []
aList = []
bList = []

for i in range(100):
    print('训练次数：{} a={:.4f} b={:.4f}'.format(i+1, a, b))
    cost = costFunction(a, b)
    costList.append(cost)
    a, b = opt(a, b)
    aList.append(a)
    bList.append(b)
    sub01.cla()
    sub02.cla()
    sub03.cla()
    sub04.cla()
    sub01.plot(x, a*x+b)
    sub01.scatter(x, y)
    sub01.set_xlabel('x')
    sub01.set_ylabel('y')
    sub01.set_title('a={:.6f}, b={:.6f}'.format(a, b))
    sub02.set_xlabel('训练次数')
    sub02.set_ylabel('损失函数值')
    sub02.set_title('当前损失函数值：{:.6f}'.format(cost))
    sub02.plot(costList)
    sub03.plot(aList)
    sub04.plot(bList)
    sub03.set_xlabel('训练次数')
    sub03.set_ylabel('a')
    sub04.set_xlabel('训练次数')
    sub04.set_ylabel('b')
    plt.pause(0.001)
plt.show()