Loss Balancing

最新推荐文章于 2025-02-18 15:07:36 发布

原创

最新推荐文章于 2025-02-18 15:07:36 发布 · 286 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #多任务学习 #pytorch

本文探讨了在复现Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics研究时遇到的问题。在PyTorch实现中，作者强调了两个关键点：1. 处理权重参数sigma时应将其视为可学习的parameter，而非常数；2. 在计算损失加权的总损失L时，权重W需要在计算图中，因此应将其置于forward函数内，以确保梯度正确计算。

为复现：　Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

(https://arxiv.org/pdf/1705.07115.pdf)

文章中：

原文章定义sigma为噪声，在原论文复现中(https://github.com/yaringal/multi-task-learning-example/blob/master/multi-task-learning-example.ipynb)直接是可学习的参数,见下图：

用pytorch复现的坑：

１、要用parameter,而不是定义常数torch.Tensor(torch.zeros(1))

from torch.nn import Parameter
    self.log_cate    =  Parameter(torch.Tensor(1))
    self.log_regress = Parameter(t

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dbmeng

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

GradNorm：Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks，梯度归一化

Leon_winter的博客

03-21

2万+

文章目录引言gradnorm gradnorm论文地址：https://arxiv.org/abs/1711.02257 gradnorm是一种优化方法，在多任务学习（Multi-Task Learning）中，解决 1. 不同任务loss梯度的量级（magnitude）不同，造成有的task在梯度反向传播中占主导地位，模型过分学习该任务而忽视其它任务；2. 不同任务收敛速度不一致；这两个...

【论文阅读26】GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

qq_35653657的博客

08-16

1980

深度多任务网络，即一个神经网络产生多个预测输出，可以比单任务网络提供更好的速度和性能，但正确的训练具有挑战性。我们提出了一种梯度归一化（GradNorm）算法，通过动态调整梯度大小来自动平衡深度多任务模型的训练。我们表明，对于各种网络架构，对于回归和分类任务，以及合成和真实数据集，与单任务网络、静态基线和其他自适应多任务损失平衡技术相比，GradNorm提高了准确性，并减少了跨多个任务的过拟合。GradNorm也匹配或超过穷举网格搜索方法的性能，尽管只涉及单个不对称超参数α。

参与评论您还未登录，请先登录后发表或查看评论

pytorch中常用的损失函数

m0_46483236的博客

03-30

2880

1. pytorch中常用的损失函数列举: pytorch中的nn模块提供了很多可以直接使用的loss函数, 比如MSELoss(), CrossEntropyLoss(), NLLLoss() 等官方链接:https://pytorch.org/docs/stable/_modules/torch/nn/modules/loss.html pytorch中常用的损失函数损失函数名称适用场景 torch.nn.MSELoss() 均方误差损失回归 t...

mseloss pytorch_线性回归模型与pytorch实现

weixin_39920403的博客

11-27

666

线性回归模型是非常基本的回归模型，其原理比较简单，所以文章仅仅简单介绍，并给出pytorch实现代码。文章分为4个部分：（1）线性回归模型的理论基础（2）网络设计与pytorch实现（3）构建数据与网络训练测试（4）拟合过程可视化1、线性回归模型的理论基础这里简单的线性回归模型视为：y=kx+b，其中x是输入数据，k和b是需要学习的参数，y是网络的预测输出。那么学习的目的就是让网络预测输出尽可能接...

【图像生成】(四) Diffusion原理 & pytorch代码实例

Lizhi_Tech的博客

08-09

1万+

之前介绍完了图像生成网络GAN和VAE，终于来到了Diffusion。stable diffusion里比较复杂，同时用到了diffusion，VAE，CLIP等模型，这里我们主要着重介绍diffusion网络本身。

Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics 论文学习

calvinpaean的博客

05-09

457

论文地址：Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics 1. 解决了什么问题？ 多任务学习从一个共享的表征学习多个目标函数，能提升学习效率和预测的准确率。场景理解算法需要同时理解场景的几何和语义信息，但回归和分类算法用到的单位和尺度各不相同。以前的方法将各项损失简单地加权求和，同时学习多个任务，各损失的权重要么通过均匀采样得到，要么需要手动调节。多任务学习的表现好坏高度取决于各任

深度学习的多个loss如何平衡？

深度学习与计算机视觉

04-25

4162

来源：https://www.zhihu.com/question/375794498编辑：深度学习与计算机视觉声明：仅做学术分享，侵删在一个端到端训练的网络中，如果最终的loss = ...

GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks 论文阅读笔记

tsq292978891的博客

04-25

3534

GradNorm 不同任务的的梯度幅度大致相同平衡不同任务的训练速率梯度幅度和训练速率的定义梯度幅度首先是选模型的哪块参数来做梯度统计，这里选取的是所有任务共享层的最后一层。然后，通过计算每个任务loss相对于最后共享层的梯度的2范数，作为每个任务的梯度幅度表示，此外还计算了每个任务的梯度幅度，算一个均值，得到某次训练的梯度平均幅值。训练速率怎么去定义任务收敛的快慢，也即训练速率，论文这里用的是loss比，通常来说，网络最开始随机预测，此时loss最大，记为L(0)，然后以任务i在t时刻

DeepSeek 训练提到的Auxiliary-Loss-Free Load Balancing是什么？

日常学习与专研的记录

02-18

2308

本文介绍DeekSeek 的MOE涉及到的Auxiliary-Loss-Free Load Balancing方法。

多任务损失优化：Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

12-06

1万+

证明了对损失项的正确加权对于多任务学习问题是至关重要的，同时证明了同方差(任务)不确定性是损失赋权的有效方法。

【论文】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

so_so_y的博客

04-03

1576

本文提出了一种多任务loss权重学习的方式，通过训练协调了三个任务的loss，有语义分割、实力分割和depth regression，结构主要是：文中主要分为了三种情况来介绍：回归任务定义一个概率分布函数，假设其符合高斯分布，令fW(x)f^W(x)fW(x)为输入为x、权重为W的网络的输出，并将fW(x)f^W(x)fW(x)看作均值μ\muμ，则有： p(y∣fW(x))=N(fW...

PyTorch深度学习（9）损失函数、反向传播、优化器

JYliangliang的博客

10-16

906

一、损失函数例如：试卷总计100分，其中选择题30分、判断题20分、简答题50分 target（目标分数）：选择30、判断20、简答50 ouput（实际分数）：选择10、判断10、简答10 Loss = (30 - 10) + (20 - 10) + (50 - 10) = 70 loss越小越好 1、计算实际输出和目标之间的差距 2、为我们更新输出提供一定的依据（反向传播） 1）L1Loss L1Loss x：1，2，3 y：1，2，5 L1Loss = (0 + 0 ...

SOLOV2源码解析

m0_58348465的博客

02-02

6310

一、 train部分 1.1 总体框架执行train_net.py--> args = default_argument_parser().parse_args()加载参数--> launch函数判断是否为多gpu训练，从launch末尾进入train_net的main函数--> main函数主要是读取参数，同时判断是否先进入test（不进入）。之后根据从trainer = Trainer(cfg)进入Trainer类,同样是理解读取参数，具体操作包括加载数据集，模型，优化器

SOLO实战——用自己的数据集训练实例分割模型

guopeiAI

06-08

1万+

SOLO实例分割算法原理简单，并且分割精度达到mask R-CNN的水平，用了Matrix NMS（SOLOV2中的内容）后，其推理速度明显快于mask R-CNN，本文会带你一步一训练自己的数据集。solov2官方也开源了，同样适用。

soloV2保姆级教程（含环境配置，训练自己的数据集，代码逻辑分析等。能踩得坑都踩了....）更新ing

m0_58348465的博客

01-15

1万+

首先放上开源代码链接：GitHub - WXinlong/SOLO: SOLO and SOLOv2 for instance segmentation, ECCV 2020 & NeurIPS 2020. 一.运行代码因为我们这个项目精度比较重要，所以我下载了精度最高的模型：SOLOv2_X101_DCN_3x 首先先配置环境，我选择利用pytorch新建了一个conda python3.6 下载后运行如下示例指令： python tools/test_ins.py configs/

【跑实验记录】SOLO

flora

06-12

915

跑SOLO实验记录6.12跑测试集 6.12 跑测试集 python tools/test_ins.py configs/solo/solo_r50_fpn_8gpu_1x.py download --show --out results_solo.pkl --eval segm 测试模型：SOLO_R50_1x 结果：小物体的精度和官方一样

视觉分类任务中处理不平衡问题的loss比较

最新发布

03-20

### 多任务学习中联合损失函数的设计与实现在多任务学习（Multi-Task Learning, MTL）中，设计和实现联合损失函数是一个核心问题。它直接影响到模型能否有效地平衡多个子任务的学习目标，并最终提升整体性能。 #### 1. 不同任务的损失函数形式对于不同的任务类型，通常会采用特定的损失函数来衡量预测值与真实值之间的差异。例如，在分类任务中常用的交叉熵损失[^3]，而在回归任务中则可能使用均方误差（MSE）、绝对误差（MAE），或者更鲁棒的 Huber Loss 和 Log-cosh Loss。 #### 2. 权重分配策略为了综合考虑各个任务的重要性以及它们之间可能存在冲突的情况，一种常见做法是对每项单独的任务赋予一定权重系数 \( w_i \)，从而构建加权求和形式的整体目标函数： \[ L_{total} = \sum_{i=1}^{n} w_i L_i \] 其中 \( n \) 表示总共有多少个并行处理的任务，\( L_i \) 是第 i 个具体任务对应的独立损失表达式[^2]。进一步地，有研究提出动态调整这些比例因子的方法——即让网络自己学会如何合理设置每个分支贡献程度的最佳数值。比如 SLAW(Scaled Loss Approximate Weighting) 提出了基于梯度范数均衡的原则自动计算合适的 weights 值集合 {wi}, 这样可以避免手动调参带来的不便同时也提高了算法适应能力面对复杂场景下的表现效果。另外还存在不确定性估计法用于指导 multi-task 的 loss balancing process [^1], 它假设不同类型的输出具有各自的噪声水平分布特性，进而依据统计学理论推导得出相应的调节机制应用于实际优化过程中。 #### 3. Python 实现案例下面给出一段简单的 python 代码片段展示了一个基本框架下如何定义一个多任务学习系统的总体损失计算逻辑: ```python import tensorflow as tf def compute_loss(y_true_classify, y_pred_classify, y_true_regress, y_pred_regress): classify_loss = tf.keras.losses.categorical_crossentropy(y_true_classify, y_pred_classify) regress_loss_mse = tf.reduce_mean(tf.square(y_true_regress - y_pred_regress)) delta = 1.0 # Hyperparameter for huber loss error = y_true_regress - y_pred_regress condition = tf.abs(error) < delta regress_loss_huber = tf.where(condition, 0.5 * tf.square(error), delta * (tf.abs(error) - 0.5 * delta)) log_cosh_loss = tf.math.log(tf.cosh(regress_loss_mse)) total_loss = classify_loss + regress_loss_huber + log_cosh_loss return total_loss ``` 上述例子展示了同时包含分类和回归两个部分的情形，并分别采用了标准 cross entropy、huber loss 及 log cosh loss 组成最后总的 evaluation metric 结果返回给训练环节继续反向传播更新参数直至收敛为止。 ---