关于nn.upsample在GPU上无法兼容BFloat16的问题

tanhongweibest

已于 2023-12-18 17:20:24 修改

阅读量3.7k

点赞数 12

文章标签： pytorch 深度学习人工智能 python

于 2023-12-18 17:19:31 首次发布

本文链接：https://blog.youkuaiyun.com/tanhongweibest/article/details/135067303

版权

在CNN中，nn.upsample常用于上采样操作，尤其是最近大火的扩散模型中，UNet网络的上采样均是采用这个操作执行该任务。尽管如此，nn.upsample在GPU上运行时，与torch.bfloat16会发生冲突，常给出这样的错误：RuntimeError:“upsample_nearest2d_out_frame” not implemented for ‘BFloat16’，从而导致很多高性能计算受阻。torch.bfloat16数据格式，是指"Brain Floating Point"格式占位16位，由Google Brain发明，专门为TPU研制，这种格式有很多优越的性能（详见https://cloud.google.com/tpu/docs/bfloat16?hl=zh-cn）；后面人们发现这种数据格式，在GPU框架下的训练速度很快，同时对性能影响很小。如Lightning库（https://lightning.ai/）专门为Pytorch加速时，常使用这种数据格式，我们尝试过，使用这种数据格式训练扩散模型，每迭代1000次，要比其他数据格式快10s左右（在3090上）。因此，这个数据格式nn.upsample这个类在GPU上计算不兼容，将极大地影响学习进程。注意：只是在GPU上，会冲突，在CPU上不会冲突。即：

import torch.nn as nn
data=torch.rand(4,3,8,8,dtype=torch.bfloat16)
up = nn.Upsample(scale_factor=2.0, mode="nearest")
output_up = up(data)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tanhongweibest

关注关注

12
点赞
踩
8

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

YoloV10改进策略：BackBone改进|EfficientFormerV2在YoloV10中的创新应用，精度与效率的完美平衡

m0_47867638的博客

09-21

703

随着视觉变换器（ViTs）在计算机视觉任务中的成功，近期的研究尝试优化ViTs的性能和复杂度，以实现在移动设备上的高效部署。提出了多种方法来加速注意力机制，改进低效设计，或结合适用于移动设备的轻量级卷积形成混合架构。然而，ViT及其变体仍然比轻量级CNNs有更高的延迟或更多的参数，即使是多年前的MobileNet也是如此。在实践中，延迟和大小对于在资源受限的硬件上有效部署至关重要。在这项工作中，我们探讨了一个核心问题，变换器模型能否像MobileNet一样快速运行并保持类似的大小？

【目标检测】基于深度学习的布匹表面缺陷检测(yolov5算法，4类，附代码和数据集)

学无止境、积少成多、厚积薄发

04-26

1115

基于深度学习的布匹表面缺陷检测(yolov5算法，4类，附代码和数据集)

2 条评论您还未登录，请先登录后发表或查看评论

ValueError: Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla V

NLP与推荐算法

08-27

2973

大模型glm4-9b-chat加载报错

V100显卡无法支持dolly系列模型BP16运算及BP16与FP16模型转换解决方式

ego_grow的博客

04-27

6029

在使用V100显卡进行模型训练：模型数据在加载及实际运算过程中会由自身配置的参数设定进行加载和运算，使用huggingface的transfomer库中的AutoModel.from_pretrained(“model_name_or_path”)虽然能正常加载，但在运算时会进行报错，需要我们使用FP类型的数据在V100显卡上进行运算。例如：以dolly-v**系列模型举例，模型的本身数据类型为bfloat16，运算过程中也是这种格式，导致此模型无法再V100这种不支持BF类型的显卡上运行。

RuntimeError: “unfolded2d_copy“ not implemented for ‘Half‘

最新发布

图灵追幕者博客录

04-24

326

如果你认为这是一个应该支持但未实现的功能，可以考虑在 PyTorch 的官方 GitHub 仓库中提交问题，或者在相关社区中询问，看是否有其他解决方案。：如果你对操作的具体实现有深刻的理解，并且需要继续使用 FP16，你可能需要自己实现该操作的 FP16 版本，这通常需要深入了解相关的数学和计算原理。：查看 PyTorch 的官方文档或相关实现，确认是否确实不支持 FP16，如果不支持，是否有计划支持，或者是否有替代方案。如果你使用的是较旧版本，考虑升级。

Qwen2报错——RuntimeError: “triu_tril_cuda_template“ not implemented for ‘BFloat16‘

LiQZ的博客

08-13

6947

最近在使用 Qwen2-7B-Instruct 的时候报错 RuntimeError: “triu_tril_cuda_template” not implemented for ‘BFloat16’，尝试解决了几个星期终于解决了问题，以下是整体解决思路与方案。

Server - PyTorch BFloat16 “TypeError: Got unsupported ScalarType BFloat16“ 解决方案

AGI

09-04

6314

由于 BFloat16 类型的指数部分和 float32 类型一致，可以更好地处理梯度消失和梯度爆炸的问题，以及在低精度下保持数值稳定性。PyTorch 提供一些工具和方法来使用 BFloat16 类型进行混合精度训练和推理，例如 torch.bfloat16 数据类型，torch.cuda.amp 模块，torch.nn.BFloat16Module 类等。

PyTorch 中的 MSELoss 不支持 bfloat16 类型的张量:RuntimeError: “mse_cpu“ not implemented for ‘BFloat16‘

阿正的梦工坊

12-31

525

计算loss的需要把bf16转换为fp32.

【YOLOv5】源码（yolo.py）

m0_55908255的博客

01-09

1215

该脚本文件位于，用于构建整个YOLOv5模型，并且负责模型的前向传播。

paddle 56 将图像分类模型嵌入到目标检测中并实现端到端的部署（用图像分类模型进行目标检测切片分类）

a486259的博客

12-24

1603

目标检测在功能上一直是涵盖了图像分类的，其包含目标切片检测，目标切片分类。由于某些原因，需要将目标检测的功能退化为检测，忽略其切片分类，使用外部的分类模型。然而这样操作会使得其与原始的部署代码不兼容，为此博主实现将图像分类模型嵌入到目标检测中，并实现端到端的部署。这里以ppyoloe模型为改造案例，关于图像分类模型可以使用任意PaddleClas支持的模型。关于构造PaddleClas模型可以查阅。

部署llama3时出现RuntimeError: “triu_tril_cuda_template“ not implemented for ‘BFloat16‘报错

zwhszdx的博客

07-28

3347

部署llama3时出现RuntimeError: "triu_tril_cuda_template" not implemented for 'BFloat16'报错

RuntimeError: “triu_tril_cuda_template“ not implemented for ‘BFloat16‘ 报错解决

instersight的博客

10-27

837

题主经过大量摸索，最终发现调整transformers包版本即可,题主4.37.2==>4.41.0后再运行就跑通了，如果不行可以从下面的版本多试几个（最好从前往后试）。

【已解决】RuntimeError: “nll_loss_forward_reduce_cuda_kernel_2d_index“ not implemented for ‘Float‘

热门推荐

BetrayFree的博客

10-20

1万+

来进行训练模型加水印时报错RuntimeError: "nll_loss_forward_reduce_cuda_kernel_2d_index" not implemented for 'Float'，这个在网上并没有找到解决办法，有的也只是RuntimeError: "nll_loss_forward_reduce_cuda_kernel_2d_index" not implemented for 'int'，也就是说之前因为int类型不兼容出了问题，那这个float报错的原因是什么呢？

加载Llama模型RuntimeError: “triu_tril_cuda_template“ not implemented for ‘BFloat16‘

Blue&boke

07-10

1780

在推理llama大模型时，原始代码如下，在加载model时，配置torch_dtype = ‘auto’

RuntimeError: “triu_tril_cuda_template“ not implemented for ‘BFloat16‘

m0_46371988的博客

07-23

1395

首先按照网上帖子，把自己模型的config.json里面的torch_dtype改成了float16，然后，错误还是出现。后来把transformer的版本改到了4.40.0 就能正常运行了。真的会被LLaMa-Factory这个错误给气死。后来发现是我安装的transfomer版本太低了。我的cuda是117，torch是1.13.0。

python安装cuda出现错误提示：AssertionError: Torch not compiled with CUDA enabled

2301_76391372的博客

03-14

342

作为一个新手小白，安装使用pthon，进行神经网络学习与训练，遇到好多bug问题，主要是cuda 安装、torch安装、torchvision安装，以及调试，最终调通，花费了好多天时间。同时安装也要安装对应的驱动。0、先安装了python3.8不行，后来卸载，安装Anaconda3,2018版本，该版本自带python3.7，所以卸载了3.8.先后安装了，torch1.7.1，torch1.7.0，torch1.5.1，torch1.5.0，torch1.4.0.最终安装。2、torch版本安装。

pytorch1.0,1.0.1-- onnx --tensorRT5.0.2.6的upsample_nearest2d BUG

The space of Shining

03-25

3436

最近英伟达发布了一个开源项目，https://github.com/NVIDIA/retinanet-examples，查看源码我们发现在RetinaNet/model.py 中将将pytorch的pth模型转化为onnx时，代码中有这样一段代码： import torch.onnx.symbolic # Override Upsample's ONNX expo...

解决RuntimeError: “triu_tril_cuda_template“ not implemented for ‘BFloat16‘

qq_44908396的博客

09-13

2329

qwen2-vl报错RuntimeError: "triu_tril_cuda_template" not implemented for 'BFloat16'，提供作者的解决方法

YOLOv5训练报错：RuntimeError: upsample_bilinear2d_backward_out_cuda does not have a deterministic impleme

Together_CZ的博客

03-15

877

YOLOv5训练报错解决：RuntimeError:upsample_bilinear2d_backward_out_cuda does not have a deterministic implementation, but you set 'torch.use_deterministic_algorithms(True)'. You can turn off determinism just for this operation, or you can use the 'warn_only=True'

nn.ConvTranspose2d与nn.Upsample

07-29

nn.ConvTranspose2d和nn.Upsample是PyTorch中用于上采样（上取样）操作的两种常见方式。 nn.ConvTranspose2d是一个转置卷积层，也被称为反卷积层。它可以将输入张量的空间维度（宽度和高度）放大，同时保持通道数...