深度学习入门核心知识梳理

在深度学习的知识图谱中,线性回归与 Softmax 回归是两块不可或缺的基石。它们不仅是解决实际问题的实用工具,更是理解复杂神经网络的起点。今天,我们就从这两个模型出发,拆解深度学习的基础逻辑、优化方法与任务差异。

一、线性回归:连续值预测的 “入门钥匙”

提到线性回归,很多人会觉得它简单易懂,但正是这种 “简单” 中藏着深度学习的核心思想。它的本质是通过建立输入特征与连续输出值之间的线性关系,实现对未知数据的预测。

1. 源于生活的直观场景

最贴近生活的例子莫过于房价预测。当我们看中一套房子时,会收集它的核心特征 —— 比如卧室数量(7 间)、车库车位(2 个)、所属学区(帕洛阿尔托联合学区)、厨房配置(花岗岩台面、嵌入式电器等),再结合往年同类型房源的成交价格,就能通过线性回归模型估算出合理的出价。这里的核心逻辑是:用历史数据中的特征与结果关系,拟合出通用的预测公式

2. 核心数学表达

线性回归的核心是构建 “特征加权求和 + 偏置” 的线性关系,其数学形式可分为两种:

  • 针对单个样本:y=wTx+b,其中x是输入特征向量(如卧室数、车库面积等),w是对应特征的权重(表示特征对结果的影响程度),b是偏置项(调整模型的基准值)。
  • 针对批量样本:y=Xw+b,其中X是包含多个样本的特征矩阵,通过矩阵运算高效处理批量数据。

从神经网络视角看,线性回归其实是最简单的单层神经网络 —— 只有输入层和输出层,且输出层直接由输入特征线性组合得到,没有隐藏层和激活函数。

二、深度学习的 “优化引擎”:梯度下降与超参数选择

无论线性回归还是后续的复杂模型,核心目标都是找到最优参数(权重w和偏置b),而实现这一目标的关键工具就是梯度下降

1. 梯度:损失函数的 “指南针”

要找到最优参数,首先需要定义 “误差”—— 这就是损失函数的作用,它衡量模型预测值与真实值的差异(比如线性回归中常用的平方损失)。而梯度则是损失函数对所有参数的偏导数组成的向量,它有两个关键特性:

  • 梯度指向函数值增加最快的方向,因此其反方向就是函数值减小最快的方向。
  • 离函数最小值越远,梯度向量的模(长度)越大,意味着误差下降的 “潜力” 越大。

形象地说,梯度就像山路上的指南针,能指引我们朝着 “山谷”(损失最小值)前进,但它无法直接定位终点,只能告诉我们当前一步的最优方向。

2. 梯度下降的三种常见形式

随着数据量增长,基础梯度下降(全量计算所有样本的梯度)效率过低,因此衍生出了更实用的变种:

  • 随机梯度下降(SGD):每次只随机取一个样本计算梯度并更新参数,计算速度快,但梯度波动大,可能在最小值附近震荡。
  • 小批量随机梯度下降(Mini-batch SGD):取一小批样本(如 32、64 个)计算梯度,兼顾了计算效率与梯度稳定性,是深度学习的 “默认求解算法”。
  • 全量梯度下降:仅适用于小数据集,能稳定收敛但计算成本极高。

3. 关键超参数:批量大小与学习率

超参数是模型训练前需要人工设定的参数,直接影响优化效果:

  • 批量大小:既不能太小(否则无法充分利用 GPU 等计算资源,梯度波动大),也不能太大(会浪费资源,且可能陷入局部最优),需根据数据规模和硬件条件调整。
  • 学习率:控制每一步沿梯度反方向前进的 “步长”。步长太大容易越过最小值(发散),步长太小则收敛速度极慢(陷入局部最优),通常需要通过试验(如 0.001、0.01)找到合适值。

三、Softmax 回归:从连续预测到离散分类

线性回归解决 “预测连续值”(如房价、温度),而现实中更常见的是 “分类任务”(如图像识别、评论情感分类),这就需要 Softmax 回归登场了。

1. 回归与分类的核心差异

两类任务的本质区别体现在输出目标上:

任务类型输出特点典型场景
回归单个连续值房价预测、降雨量估算
分类多个离散类别MNIST 手写数字识别(10 类)、恶语评论分类(7 类)

分类任务中,模型通常输出多个值,每个值代表输入属于某一类别的 “置信度”,最终需将置信度转化为概率分布。

2. Softmax 运算:置信度到概率的 “转换器”

Softmax 回归在线性回归的基础上增加了Softmax 运算,将输出层的 “置信度” 转化为符合概率规则的预测结果,其核心逻辑是:

  1. 对每个类别的置信度oi​做指数运算(exp(oi​)),确保结果非负。
  2. 将每个指数结果除以所有类别指数结果的总和,得到每个类别的概率(总和为 1)。

例如,若输出层的置信度为 [1, -1, 2],经过 Softmax 运算后得到概率分布 [0.26, 0.04, 0.7],即模型预测该输入属于第三类的概率最高(70%)。

3. Softmax 回归的网络结构

从结构上看,Softmax 回归是单层全连接神经网络:

  • 输入层:接收原始特征(如图像的像素值、文本的向量表示)。
  • 输出层:神经元数量等于类别的数量(如 10 类分类任务对应 10 个输出神经元),每个神经元的输出经 Softmax 运算后对应一类的概率。

四、损失函数的选择:匹配任务本质

损失函数是模型优化的 “指挥棒”,需根据任务类型选择:

  • 回归任务:常用平方损失(L2 损失,对异常值敏感)、L1 损失(对异常值鲁棒)或 Huber 损失(结合前两者优势,在误差小时用 L2、误差大时用 L1)。
  • 分类任务:平方损失不适合概率分布的优化,通常用交叉熵损失。它能直接衡量模型预测概率分布与真实标签分布的差异,当预测越接近真实标签时,损失值越小,优化效率更高。

结语:从基础到深度学习的进阶路径

线性回归与 Softmax 回归看似简单,却包含了深度学习的核心框架:输入特征→线性 / 非线性变换→损失函数→梯度优化。线性回归是 “连续预测的起点”,Softmax 回归是 “分类任务的基石”,而梯度下降则是贯穿始终的 “优化核心”。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值