在深度学习的知识图谱中,线性回归与 Softmax 回归是两块不可或缺的基石。它们不仅是解决实际问题的实用工具,更是理解复杂神经网络的起点。今天,我们就从这两个模型出发,拆解深度学习的基础逻辑、优化方法与任务差异。
一、线性回归:连续值预测的 “入门钥匙”
提到线性回归,很多人会觉得它简单易懂,但正是这种 “简单” 中藏着深度学习的核心思想。它的本质是通过建立输入特征与连续输出值之间的线性关系,实现对未知数据的预测。
1. 源于生活的直观场景
最贴近生活的例子莫过于房价预测。当我们看中一套房子时,会收集它的核心特征 —— 比如卧室数量(7 间)、车库车位(2 个)、所属学区(帕洛阿尔托联合学区)、厨房配置(花岗岩台面、嵌入式电器等),再结合往年同类型房源的成交价格,就能通过线性回归模型估算出合理的出价。这里的核心逻辑是:用历史数据中的特征与结果关系,拟合出通用的预测公式。
2. 核心数学表达
线性回归的核心是构建 “特征加权求和 + 偏置” 的线性关系,其数学形式可分为两种:
- 针对单个样本:y=wTx+b,其中x是输入特征向量(如卧室数、车库面积等),w是对应特征的权重(表示特征对结果的影响程度),b是偏置项(调整模型的基准值)。
- 针对批量样本:y=Xw+b,其中X是包含多个样本的特征矩阵,通过矩阵运算高效处理批量数据。
从神经网络视角看,线性回归其实是最简单的单层神经网络 —— 只有输入层和输出层,且输出层直接由输入特征线性组合得到,没有隐藏层和激活函数。
二、深度学习的 “优化引擎”:梯度下降与超参数选择
无论线性回归还是后续的复杂模型,核心目标都是找到最优参数(权重w和偏置b),而实现这一目标的关键工具就是梯度下降。
1. 梯度:损失函数的 “指南针”
要找到最优参数,首先需要定义 “误差”—— 这就是损失函数的作用,它衡量模型预测值与真实值的差异(比如线性回归中常用的平方损失)。而梯度则是损失函数对所有参数的偏导数组成的向量,它有两个关键特性:
- 梯度指向函数值增加最快的方向,因此其反方向就是函数值减小最快的方向。
- 离函数最小值越远,梯度向量的模(长度)越大,意味着误差下降的 “潜力” 越大。
形象地说,梯度就像山路上的指南针,能指引我们朝着 “山谷”(损失最小值)前进,但它无法直接定位终点,只能告诉我们当前一步的最优方向。
2. 梯度下降的三种常见形式
随着数据量增长,基础梯度下降(全量计算所有样本的梯度)效率过低,因此衍生出了更实用的变种:
- 随机梯度下降(SGD):每次只随机取一个样本计算梯度并更新参数,计算速度快,但梯度波动大,可能在最小值附近震荡。
- 小批量随机梯度下降(Mini-batch SGD):取一小批样本(如 32、64 个)计算梯度,兼顾了计算效率与梯度稳定性,是深度学习的 “默认求解算法”。
- 全量梯度下降:仅适用于小数据集,能稳定收敛但计算成本极高。
3. 关键超参数:批量大小与学习率
超参数是模型训练前需要人工设定的参数,直接影响优化效果:
- 批量大小:既不能太小(否则无法充分利用 GPU 等计算资源,梯度波动大),也不能太大(会浪费资源,且可能陷入局部最优),需根据数据规模和硬件条件调整。
- 学习率:控制每一步沿梯度反方向前进的 “步长”。步长太大容易越过最小值(发散),步长太小则收敛速度极慢(陷入局部最优),通常需要通过试验(如 0.001、0.01)找到合适值。
三、Softmax 回归:从连续预测到离散分类
线性回归解决 “预测连续值”(如房价、温度),而现实中更常见的是 “分类任务”(如图像识别、评论情感分类),这就需要 Softmax 回归登场了。
1. 回归与分类的核心差异
两类任务的本质区别体现在输出目标上:
| 任务类型 | 输出特点 | 典型场景 |
|---|---|---|
| 回归 | 单个连续值 | 房价预测、降雨量估算 |
| 分类 | 多个离散类别 | MNIST 手写数字识别(10 类)、恶语评论分类(7 类) |
分类任务中,模型通常输出多个值,每个值代表输入属于某一类别的 “置信度”,最终需将置信度转化为概率分布。
2. Softmax 运算:置信度到概率的 “转换器”
Softmax 回归在线性回归的基础上增加了Softmax 运算,将输出层的 “置信度” 转化为符合概率规则的预测结果,其核心逻辑是:
- 对每个类别的置信度oi做指数运算(exp(oi)),确保结果非负。
- 将每个指数结果除以所有类别指数结果的总和,得到每个类别的概率(总和为 1)。
例如,若输出层的置信度为 [1, -1, 2],经过 Softmax 运算后得到概率分布 [0.26, 0.04, 0.7],即模型预测该输入属于第三类的概率最高(70%)。
3. Softmax 回归的网络结构
从结构上看,Softmax 回归是单层全连接神经网络:
- 输入层:接收原始特征(如图像的像素值、文本的向量表示)。
- 输出层:神经元数量等于类别的数量(如 10 类分类任务对应 10 个输出神经元),每个神经元的输出经 Softmax 运算后对应一类的概率。
四、损失函数的选择:匹配任务本质
损失函数是模型优化的 “指挥棒”,需根据任务类型选择:
- 回归任务:常用平方损失(L2 损失,对异常值敏感)、L1 损失(对异常值鲁棒)或 Huber 损失(结合前两者优势,在误差小时用 L2、误差大时用 L1)。
- 分类任务:平方损失不适合概率分布的优化,通常用交叉熵损失。它能直接衡量模型预测概率分布与真实标签分布的差异,当预测越接近真实标签时,损失值越小,优化效率更高。
结语:从基础到深度学习的进阶路径
线性回归与 Softmax 回归看似简单,却包含了深度学习的核心框架:输入特征→线性 / 非线性变换→损失函数→梯度优化。线性回归是 “连续预测的起点”,Softmax 回归是 “分类任务的基石”,而梯度下降则是贯穿始终的 “优化核心”。
2172

被折叠的 条评论
为什么被折叠?



