PyTorch深度学习项目中的损失函数详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00815/article/details/148465511

PyTorch深度学习项目中的损失函数详解

NYU-DLSP20 NYU Deep Learning Spring 2020 项目地址: https://gitcode.com/gh_mirrors/pyt/pytorch-Deep-Learning

引言

在深度学习中，损失函数是模型训练的核心组件之一，它衡量模型预测结果与真实值之间的差异。本文将深入探讨PyTorch深度学习框架中常用的各类损失函数，包括它们的数学原理、适用场景以及在能量模型(Energy-Based Models)中的应用。

基础损失函数

二元交叉熵损失(BCE Loss)

二元交叉熵损失(Binary Cross Entropy Loss)是分类任务中最常用的损失函数之一，特别适用于二分类问题：

$$ \ell(x,y) = -w_n[y_n\log x_n+(1-y_n)\log(1-x_n)] $$

特点：

假设输入x和标签y都是概率值，范围在[0,1]之间
常用于自编码器等重建任务中
对错误预测有较强的惩罚

实际应用：在图像二分类任务中，如判断图片是否包含猫，BCE Loss能有效衡量预测概率与真实标签的差异。

KL散度损失(KLDiv Loss)

KL散度(Kullback-Leibler Divergence)衡量两个概率分布的差异：

$$ \ell(x,y) = y_n(\log y_n-x_n) $$

特点：

适用于目标分布是one-hot编码的情况
需要确保输入已经是概率分布
数值稳定性较差，通常需要配合log-softmax使用

带Logits的BCE损失(BCEWithLogits Loss)

这是BCE Loss的改进版本，直接处理未归一化的分数：

$$ \ell(x,y) = -w_n[y_n\log \sigma(x_n)+(1-y_n)\log(1-\sigma(x_n))] $$

优势：

内部集成了sigmoid函数，数值稳定性更好
不需要预先对输入进行归一化处理
训练过程更稳定，收敛更快

边界相关损失函数

边界排序损失(MarginRanking Loss)

$$ L(x,y) = \max(0, -y*(x_1-x_2)+\text{margin}) $$

工作原理：

强制两个输入的分数保持一定差距
y ∈ {-1,1}决定排序方向
常用于推荐系统中物品对的排序

应用场景：在能量模型中，可以用它来推高错误答案的能量，压低正确答案的能量。

三元组边界损失(TripletMargin Loss)

$$ L(a,p,n) = \max{d(a_i,p_i)-d(a_i,n_i)+\text{margin}, 0} $$

核心思想：

使同类样本的距离小于不同类样本的距离
广泛用于人脸识别、图像检索等任务
需要精心设计三元组采样策略

三元组边界损失示意图

图1：三元组边界损失工作原理示意图

余弦嵌入损失(CosineEmbedding Loss)

$$ l_n = \begin{cases} 1-\cos(x_1,x_2), & y=1 \ \max(0,\cos(x_1,x_2)-\text{margin}), & y=-1 \end{cases} $$

特点：

基于余弦相似度而非欧氏距离
自动处理向量长度的影响
在高维空间中效果显著

几何解释：在单位超球面上，我们希望相似样本靠近，不相似样本分布在赤道附近。

序列损失函数

连接时序分类损失(CTC Loss)

适用场景：

处理输入输出序列长度不一致的问题
语音识别、手写体识别等任务的理想选择
自动对齐输入输出序列

数学特性：

对所有可能的对齐方式求和
输出序列长度必须≤输入序列长度
使用动态规划高效计算

CTC损失在语音识别中的应用

图2：CTC损失在语音识别任务中的工作流程

能量模型(EBM)的损失函数

能量模型通过能量函数E(W,Y,X)表示输入X和输出Y的兼容性。训练目标是找到使损失泛函最小化的参数W：

$$ \mathcal{L}(E, S) = \frac{1}{P} \sum_{i=1}^P L(Y^i, E(W,\mathcal{Y}, X^i)) + R(W) $$

设计原则

好的EBM损失函数应满足：

压低正确答案的能量
抬高错误答案的能量，特别是那些能量接近正确答案的错误答案

典型EBM损失函数

能量损失(Energy Loss)：
- 仅压低正确答案能量
- 可能导致模型坍塌(所有输出能量趋同)
负对数似然损失(NLL Loss)： $$ L_{nll} = E(W, Y^i, X^i) + \frac{1}{\beta} \log \int e^{\beta E(W, y, X^i)} dy $$
- 平衡正确答案和所有可能答案的能量
- 当β→∞时退化为感知机损失
感知机损失(Perceptron Loss)： $$ L = E(W,Y^i,X^i) - \min_{Y} E(W,Y,X^i) $$
- 强制正确答案能量低于最低能量错误答案
- 可能导致能量平面过于平坦

广义边界损失

引入"最具冒犯性的错误答案"概念：

离散情况：$\bar Y^i = \text{argmin}_{Y \neq Y^i} E(W,Y,X^i)$
连续情况：$\bar Y^i = \text{argmin}_{|Y-Y^i|>\epsilon} E(W,Y,X^i)$

基于此可定义多种边界损失：

Hinge Loss： $$ L = \max(0, m + E(W,Y^i,X^i) - E(W,\bar Y^i,X^i)) $$
- 强制正确答案与最具冒犯性错误答案的能量差≥m
Log Loss： $$ L = \log(1 + e^{E(W,Y^i,X^i)-E(W,\bar Y^i,X^i)}) $$
- Hinge Loss的平滑版本
- 提供更温和的梯度信号
Square-Square Loss： $$ L = E(W,Y^i,X^i)^2 + (\max(0, m - E(W,\bar Y^i,X^i)))^2 $$
- 结合能量最小化和边界最大化
- 常用于孪生网络