机器学习(一)线性回归_线性回归机器学习-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_60980658/article/details/129329404

本文详细介绍了线性回归的基本概念，包括模型定义、损失函数（均方误差）以及参数优化方法——梯度下降。讨论了最小二乘法如何通过求解误差平方和最小化来确定最优参数，并提到了正则化在处理大数据集时的作用。最后，给出了一个简单的线性回归Python代码示例，展示了如何用批量梯度下降训练模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 线性回归

线性回归推导

线性回归是机器学习中的一种基本模型，它是通过对数据集的学习来建立一个线性函数模型，使得预测的值与真实值的误差尽可能地小。下面我们将详细介绍线性回归的原理和推导过程。

首先，我们定义线性回归的模型为：

$h_{\theta}(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + ... + \theta_n x_n$

其中， $x_i$ 为第 $i$ 个特征， $\theta_i$ 为第 $i$ 个参数， $n$ 为特征的数量。我们将数据集表示为 $x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})$ ，其中 $x^{(i)}$ 为第 $i$ 个样本的特征向量， $y^{(i)}$ 为第 $i$ 个样本的真实值。对于给定的 $\theta$ 和 $x^{(i)}$ ，我们可以使用模型 $h_{\theta}(x^{(i)})$ 来预测样本 $x^{(i)}$ 的真实值 $y^{(i)}$ 。

接下来，我们需要定义一个损失函数来衡量模型预测值与真实值之间的误差。常用的损失函数是均方误差（Mean Squared Error）：

$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)}) - y^{(i)})^2$

其中， $\frac{1}{2m}$ 是为了方便求导。我们的目标是通过最小化损失函数 $J(\theta)$ 来找到最优的参数 $\theta$ 。

接下来，我们使用梯度下降算法来求解最优的参数 $\theta$ 。梯度下降算法的基本思想是不断迭代，每次更新参数 $\theta$ ，使得损失函数 $J(\theta)$ 最小化。

具体地，我们定义 $\theta_j$ 的更新规则为：

$\theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}$

其中， $\alpha$ 为学习率，是一个超参数，控制每次更新的步长。

我们可以通过求解损失函数 $J(\theta)$ 的偏导数来推导出梯度下降的更新规则。偏导数的计算过程如下：

$\begin{split} \frac{\partial J(\theta)}{\partial \theta_j} &=\frac{\partial}{\partial \theta_j}\frac{1}{2}(h_\theta(x)-y)^2 \\&=2\cdot\frac{1}{2}(h_\theta(x)-y)\cdot\frac{\partial}{\partial \theta_j}(h_\theta(x)-y) \\&=(h_\theta(x)-y)\cdot \frac{\partial}{\partial\theta_j}(\sum^{d}_{i=0}\theta_ix_i-y) \\&= (h_\theta(x)-y)x_j \end{split}$
$d$ 表示一个样本有d个特征向量。

因此，我们的参数更新规则为梯度下降算法的标准形式：
$\theta_j := \theta_j+\alpha(y^{(i)}-h_\theta(x^{(i)}))x_j^{(i)}$

我们可以不断迭代，直到达到预设定的停止条件，例如达到最大迭代次数或者损失函数的变化不再明显。

接下来，我们将从推导的角度，详细介绍最小二乘法的求解过程。最小二乘法是一种常用的线性回归方法，它通过最小化误差的平方和来求解最优参数。

首先，我们将线性回归的模型重新写成矩阵形式：

$h_{\theta}(X) = X\theta$

其中， $X$ 是 $\times (n+1)$ 的矩阵，包含所有的训练样本和它们对应的特征值， $\theta$ 是 $\times 1$ 的参数向量。

我们将目标值 $y$ 表示成 $\times 1$ 的向量，数据集可以表示为：

$\begin{bmatrix}x_0^{(1)} & x_1^{(1)} & ... & x_n^{(1)} \\ x_0^{(2)} & x_1^{(2)} & ... & x_n^{(2)} \\ ... & ... & ... & ...\\ x_0^{(m)} & x_1^{(m)} & ... & x_n^{(m)}\end{bmatrix} \begin{bmatrix}\theta_0 \ \theta_1 \ ... \ \theta_n\end{bmatrix} \approx \begin{bmatrix}y^{(1)} \ y^{(2)} \ ... \ y^{(m)}\end{bmatrix}$

我们的目标是找到一个参数向量 $\theta$ ，使得误差的平方和最小化。这可以表示为：

$\min_{\theta} J(\theta) = \frac{1}{2}(X\theta - y)^T(X\theta - y)$

其中， $J(\theta)$ 是误差的平方和， $^T$ 表示矩阵的转置。

为了求解最优的参数向量 $\theta$ ，我们需要对 $J(\theta)$ 求偏导数，并令其等于0。具体地，我们需要求解：

$\frac{\partial J(\theta)}{\partial \theta} = \frac{\partial}{\partial \theta} \frac{1}{2}(X\theta - y)^T(X\theta - y)$

根据矩阵求导法则，我们有：

$\frac{\partial J(\theta)}{\partial \theta} = X^T(X\theta - y)$

将其令为0，我们得到：

$X^T(X\theta - y) = 0$

移项得到：

$X^TX\theta = X^Ty$

最后，我们就可以通过求解线性方程组 $X^TX\theta = X^Ty$ 来得到最优的参数向量 $\theta$ 。

如果 $X^TX$ 是可逆的，那么解为：

$\theta = (X^TX)^{-1}X^Ty$

如果 $X^TX$ 不可逆，我们可以使用正则化方法来解决这个问题。正则化方法是在损失函数中加入一个正则项，以抑制模型复杂度过高带来的过拟合问题。

常见的正则化方法包括L1正则化和L2正则化。L1正则化在损失函数中加入 $\lambda ||\theta||_1$ ，其中 $\lambda$ 是正则化参数， $||\theta||_1$ 是参数向量 $\theta$ 的L1范数。L2正则化在损失函数中加入 $\lambda ||\theta||_2^2$ ，其中 $\lambda$ 是正则化参数， $||\theta||_2$ 是参数向量 $\theta$ 的L2范数。

以L2正则化为例，我们需要求解的是以下线性方程组：

$(X^TX + \lambda I)\theta = X^Ty$

其中， $I$ 是一个 $\times (n+1)$ 的单位矩阵。如果 $\lambda = 0$ ，则L2正则化就退化为最小二乘法。

至此，我们介绍了线性回归模型的基本概念、模型形式以及如何使用最小二乘法求解最优参数。在实际应用中，我们还需要考虑许多其他因素，如特征选择、模型评估、数据预处理等。但是，理解线性回归模型的核心思想和求解方法是非常重要的基础知识。

总结一下，线性回归模型是一个用于建立特征与目标变量之间线性关系的模型。最小二乘法是一种基本的线性回归方法，它通过最小化误差的平方和来求解最优参数。如果数据集很大，我们可以使用随机梯度下降等优化方法来加速求解。在实际应用中，我们还需要考虑模型的评估和调优等问题。

线性回归的简单范例及其代码：

import numpy as np  
import pandas as pd  
import matplotlib.pyplot as plt  
  
  
def BGD(learning_rate, theta, input, label):  
    grad = []  
    for i, j in zip(input, label):  
        pred = i.dot(theta.T)  
        grad.append((j - pred) * i)  
    grad = np.average(grad, axis=0).reshape(1, 2)  
    theta = theta + learning_rate * grad  
    return theta  
  
  
def train_BGD(times, learning_rate, theta, input, label):  
    for _ in range(times):  
        theta = BGD(learning_rate, theta, input, label)  
    return theta  
  
  
data = pd.read_csv('data', sep='\s+', names=['x1', 'x2', 'x3'])  
data = np.array(data)  
input_data = data[:, :2]  
result = data[:, 2]  
  
theta = np.random.rand(1,input_data.shape[1])  
  
theta = train_BGD(10000,0.001,theta,input_data,result)  
  
plt.plot(input_data[:,1],input_data.dot(theta.T))  
plt.scatter(input_data[:,1],result,c='y')  
plt.show()

运行结果：

线性回归的简单范例及其代码：

数据集下载：https://download.youkuaiyun.com/download/qq_60980658/87530135

import numpy as np  
import pandas as pd  
import matplotlib.pyplot as plt  
  
  
def BGD(learning_rate, theta, input, label):  
    grad = []  
    for i, j in zip(input, label):  
        pred = i.dot(theta.T)  
        grad.append((j - pred) * i)  
    grad = np.average(grad, axis=0).reshape(1, 2)  
    theta = theta + learning_rate * grad  
    return theta  
  
  
def train_BGD(times, learning_rate, theta, input, label):  
    for _ in range(times):  
        theta = BGD(learning_rate, theta, input, label)  
    return theta  
  
  
data = pd.read_csv('data', sep='\s+', names=['x1', 'x2', 'x3'])  
data = np.array(data)  
input_data = data[:, :2]  
result = data[:, 2]  
  
theta = np.random.rand(1,input_data.shape[1])  
  
theta = train_BGD(10000,0.001,theta,input_data,result)  
  
plt.plot(input_data[:,1],input_data.dot(theta.T))  
plt.scatter(input_data[:,1],result,c='y')  
plt.show()