深度学习入门核心知识梳理

最新推荐文章于 2025-12-02 20:45:02 发布

原创最新推荐文章于 2025-12-02 20:45:02 发布 · 876 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

在深度学习的知识图谱中，线性回归与 Softmax 回归是两块不可或缺的基石。它们不仅是解决实际问题的实用工具，更是理解复杂神经网络的起点。今天，我们就从这两个模型出发，拆解深度学习的基础逻辑、优化方法与任务差异。

一、线性回归：连续值预测的 “入门钥匙”

提到线性回归，很多人会觉得它简单易懂，但正是这种 “简单” 中藏着深度学习的核心思想。它的本质是通过建立输入特征与连续输出值之间的线性关系，实现对未知数据的预测。

1. 源于生活的直观场景

最贴近生活的例子莫过于房价预测。当我们看中一套房子时，会收集它的核心特征 —— 比如卧室数量（7 间）、车库车位（2 个）、所属学区（帕洛阿尔托联合学区）、厨房配置（花岗岩台面、嵌入式电器等），再结合往年同类型房源的成交价格，就能通过线性回归模型估算出合理的出价。这里的核心逻辑是：用历史数据中的特征与结果关系，拟合出通用的预测公式。

2. 核心数学表达

线性回归的核心是构建 “特征加权求和 + 偏置” 的线性关系，其数学形式可分为两种：

针对单个样本：y=wTx+b，其中x是输入特征向量（如卧室数、车库面积等），w是对应特征的权重（表示特征对结果的影响程度），b是偏置项（调整模型的基准值）。
针对批量样本：y=Xw+b，其中X是包含多个样本的特征矩阵，通过矩阵运算高效处理批量数据。

从神经网络视角看，线性回归其实是最简单的单层神经网络 —— 只有输入层和输出层，且输出层直接由输入特征线性组合得到，没有隐藏层和激活函数。

二、深度学习的 “优化引擎”：梯度下降与超参数选择

无论线性回归还是后续的复杂模型，核心目标都是找到最优参数（权重w和偏置b），而实现这一目标的关键工具就是梯度下降。

1. 梯度：损失函数的 “指南针”

要找到最优参数，首先需要定义 “误差”—— 这就是损失函数的作用，它衡量模型预测值与真实值的差异（比如线性回归中常用的平方损失）。而梯度则是损失函数对所有参数的偏导数组成的向量，它有两个关键特性：

梯度指向函数值增加最快的方向，因此其反方向就是函数值减小最快的方向。
离函数最小值越远，梯度向量的模（长度）越大，意味着误差下降的 “潜力” 越大。

形象地说，梯度就像山路上的指南针，能指引我们朝着 “山谷”（损失最小值）前进，但它无法直接定位终点，只能告诉我们当前一步的最优方向。

2. 梯度下降的三种常见形式

随着数据量增长，基础梯度下降（全量计算所有样本的梯度）效率过低，因此衍生出了更实用的变种：

随机梯度下降（SGD）：每次只随机取一个样本计算梯度并更新参数，计算速度快，但梯度波动大，可能在最小值附近震荡。
小批量随机梯度下降（Mini-batch SGD）：取一小批样本（如 32、64 个）计算梯度，兼顾了计算效率与梯度稳定性，是深度学习的 “默认求解算法”。
全量梯度下降：仅适用于小数据集，能稳定收敛但计算成本极高。

3. 关键超参数：批量大小与学习率

超参数是模型训练前需要人工设定的参数，直接影响优化效果：

批量大小：既不能太小（否则无法充分利用 GPU 等计算资源，梯度波动大），也不能太大（会浪费资源，且可能陷入局部最优），需根据数据规模和硬件条件调整。
学习率：控制每一步沿梯度反方向前进的 “步长”。步长太大容易越过最小值（发散），步长太小则收敛速度极慢（陷入局部最优），通常需要通过试验（如 0.001、0.01）找到合适值。

三、Softmax 回归：从连续预测到离散分类

线性回归解决 “预测连续值”（如房价、温度），而现实中更常见的是 “分类任务”（如图像识别、评论情感分类），这就需要 Softmax 回归登场了。

1. 回归与分类的核心差异

两类任务的本质区别体现在输出目标上：

任务类型	输出特点	典型场景
回归	单个连续值	房价预测、降雨量估算
分类	多个离散类别	MNIST 手写数字识别（10 类）、恶语评论分类（7 类）

分类任务中，模型通常输出多个值，每个值代表输入属于某一类别的 “置信度”，最终需将置信度转化为概率分布。

2. Softmax 运算：置信度到概率的 “转换器”

Softmax 回归在线性回归的基础上增加了Softmax 运算，将输出层的 “置信度” 转化为符合概率规则的预测结果，其核心逻辑是：

对每个类别的置信度oi做指数运算（exp(oi)），确保结果非负。
将每个指数结果除以所有类别指数结果的总和，得到每个类别的概率（总和为 1）。

例如，若输出层的置信度为 [1, -1, 2]，经过 Softmax 运算后得到概率分布 [0.26, 0.04, 0.7]，即模型预测该输入属于第三类的概率最高（70%）。

3. Softmax 回归的网络结构

从结构上看，Softmax 回归是单层全连接神经网络：

输入层：接收原始特征（如图像的像素值、文本的向量表示）。
输出层：神经元数量等于类别的数量（如 10 类分类任务对应 10 个输出神经元），每个神经元的输出经 Softmax 运算后对应一类的概率。

四、损失函数的选择：匹配任务本质

损失函数是模型优化的 “指挥棒”，需根据任务类型选择：

回归任务：常用平方损失（L2 损失，对异常值敏感）、L1 损失（对异常值鲁棒）或 Huber 损失（结合前两者优势，在误差小时用 L2、误差大时用 L1）。
分类任务：平方损失不适合概率分布的优化，通常用交叉熵损失。它能直接衡量模型预测概率分布与真实标签分布的差异，当预测越接近真实标签时，损失值越小，优化效率更高。

结语：从基础到深度学习的进阶路径

线性回归与 Softmax 回归看似简单，却包含了深度学习的核心框架：输入特征→线性 / 非线性变换→损失函数→梯度优化。线性回归是 “连续预测的起点”，Softmax 回归是 “分类任务的基石”，而梯度下降则是贯穿始终的 “优化核心”。