GPU训练模型遇到的报错

原创已于 2024-07-18 13:46:38 修改 · 857 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #深度学习 #人工智能

于 2024-07-05 13:53:20 首次发布

部署运行你感兴趣的模型镜像

GPU训模型遇到的报错

使用gpu训练模型

使用gpu训练模型

调用卡：

import os
os.environ['WANDB_DISABLED'] = 'true'
os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2,3,4,5,6,7'
os.chdir(sys.path[0])

import torch

注意os.environ[“CUDA_VISIBLE_DEVICES”] 要在import torch前面，否则可能无法生效：https://zhuanlan.zhihu.com/p/582993579

是否成功上卡

print(torch.cuda.device_count()) 
#8gpu
print(torch.cuda.is_available()) 
#True

上卡失败

1.查看pytorch是否是cpu版本，是的话参考：https://blog.youkuaiyun.com/wqufhu/article/details/129295385

gpu版本

并行模型

if torch.cuda.device_count() > 1:
    model.is_parallelizable = True
    model.model_parallel = True

dataset加载失败

NotImplementedError: Loading a dataset cached in a LocalFileSystem 
is not supported

直接pip install -U datasets
https://blog.youkuaiyun.com/u013250861/article/details/134300884

ValueError: Attempting to unscale FP16 gradients

实际上是环境的问题，可以尝试改变peft的版本
https://blog.youkuaiyun.com/qq_46479446/article/details/136018129

pip install peft==0.4.0

Cuda out of Memory

实际上也是peft的问题

pip install peft==0.4.0

原因不详。只改了这个后就成功了

您可能感兴趣的与本文相关的镜像

PyTorch 2.6

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Unauthorized_

关注关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

YOLO8训练遇到的各种报错及解决方案

专注于图像领域，主要研究内容包括计算机视觉和深度学习，特别是在图像分类、目标检测和图像生成等方面有深入的研究和实践经验。

08-06

1727

在Windows系统中，由于其多进程模型的特殊性，使用多进程加载数据时经常会遇到问题。在Linux系统中，通常可以使用多个子进程进行数据加载，但在Windows系统中必须将进程数设置为单进程来避免错误。此问题可能是当前使用的GPU正在被其他应用程序占用，导致显存不足。需要关闭其他应用程序以释放显存。这是由于Pillow版本问题，最新的10.0版本会产生上述问题。虽然调整后会在一定程度上影响模型的泛化能力并容易导致过拟合，但在必要时可以将。降低PyTorch和CUDA版本。使用device指定GPU。

yolo训练数据集报错，如何解决？

最新发布

**My Coding Family**

04-30

1329

🏆 本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你早日登顶，迈向财富自由的梦想🚀！同时，欢迎大家关注、收藏、订阅本专栏，更多精彩内容正在持续更新中。让我们一起进步，Up！Up！Up！备注：部分问题/难题源自互联网，经过精心筛选和整理，结合数位十多年大厂实战经验资深大佬经验总结所得，数条可行方案供所需之人参考。

参与评论您还未登录，请先登录后发表或查看评论

LLM预训练

zhouzhou0929的博客

08-11

5945

网上大量预训练代码都是封装了trainer-deepspeed后的结果，看了也不了解其中所用技术的优化点在哪。本文从最基础的训练过程开始，层层加码并对比。

（新手亲测有效）bug解决：ValueError: Attempting to unscale FP16 gradients. 反复出现的问题。

weixin_41784510的博客

01-30

9723

在运用LoRA对ChatGLM-6B（FP16）大语音模型时，遇到了bug1：ValueError: Attempting to unscale FP16 gradients. 和 bug2： AttributeError: 'ChatGLMTokenizer' object has no attribute 'sp_tokenizer'. Did you mean: '_tokenize'? ，经过一波挫折后，终于解决，把解决的途径总结分享给大家。

运行Diffusers的train_text_to_image_lora.py时报错：Attempting to unscale FP16 gradients.

chenzhuochen7788的博客

02-20

1766

issues里面提供了各种方法，但是尝试了一遍都没有解决(也可能是我没理解)注意在accelerate config里面也要设置成bf16。

(新手亲测有效)在消费级GPU上本地LoRA微调chatGLM-6B（FP16）

weixin_41784510的博客

02-20

3579

在运用LoRA对ChatGLM-6B（FP16）大语音模型时，遇到了bug1：ValueError: Attempting to unscale FP16 gradients. 和 bug2： AttributeError: 'ChatGLMTokenizer' object has no attribute 'sp_tokenizer'. Did you mean: '_tokenize'?显存要求：本人选用的ChatGLM-6B是FP16精度的，运行代码需要不少于14G的显存；四、过程中的bug解决。

Chatglm2-6B微调中出现的问题——ValueError: Attempting to unscale FP16 gradients.

qq_46479446的博客

02-03

3690

这个问题尝试了很久，实际上是环境的问题，如果在训练过程中，将fp16设置为true+int8量化，那么是可以正常训练推理的，如果不设置int8量化就会报错。可以尝试改变peft的版本。

混合精度训练 | fp16 用于神经网络训练和预测

qq_35985044的博客

08-28

5647

混合精度训练混合精度训练是在尽可能减少精度损失的情况下利用半精度浮点数加速训练。它使用FP16即半精度浮点数存储权重和梯度。在减少占用内存的同时起到了加速训练的效果。 IEEE标准中的FP16格式如下：取值范围是5.96× 10−8 ~ 65504，而FP32则是1.4×10-45 ~ 3.4×1038。从FP16的范围可以看出，用FP16代替原FP32神经网络计算的最大问题就是精度损失。 float ：1个符号位、8个指数位和23个尾数位利用fp16 代替 fp32 ...

Yolov5如何训练自定义的数据集，以及使用GPU训练，涵盖报错解决

AI研究院

09-09

8010

系列文章1、详细讲述Yolov5从下载、配置及如何使用GPU运行2、Labelimg标注自己的数据集，及如何划分训练集和验证集，应用于Yolov5上一篇文章中，已经介绍了该如何标注自己的数据集，以及该如何给他们分类，接下来的话，就是根据我们已经标注好的数据集来进行训练啦。将我们之前划分好的数据集放入项目中补充：通过文件夹将数据集复制放进去的，pycharm可以索引的更快，不然会卡很久。这个系列主要是想给自己一个记录，写在文档里也是写，发布博客也是写，前面几篇比较容易，后面会慢慢加深的。慢慢来吧。

解决TensorFlow模型恢复报错的问题

12-20

在使用TensorFlow进行深度学习建模的过程中，有时我们可能会遇到模型恢复时的错误，特别是"Attempting to use uninitialized value"这样的报错。这个问题通常涉及到变量初始化的问题。本文将深入探讨这个问题，以及...

XLNet 预训练模型报错

03-29

在使用 PyTorch 的 Transformers 库加载或运行 XLNet 预训练模型时，可能会遇到多种类型的错误。这些错误通常可以分为以下几类：环境配置问题、内存不足问题以及代码逻辑问题。 #### 1. **环境配置问题** 如果环境...

【问题解决与原理解释】Attempting to unscale FP16 gradients.

weixin_44212848的博客

08-18

5357

在使用 accelerate 训练模型时遇到以下报错，其实本质是没有理解训练过程中的各种精度设置的原理，本文将从等基础概念进行解释。

accelerate训练SD-LoRA，解决ValueError: Attempting to unscale FP16 gradients.问题

Superstarimage

05-22

1255

训练指令需从原来的：变换一下顺序：

【bug解决】Lora微调chatglm6b出现step10后loss持续为0

qq_41502855的博客

04-07

1216

lora微调过程中出现loss持续为0。

NLP学习与踩坑记录（持续更新版）

博学而笃志，切问而近思。

06-17

1102

NLP学习与踩坑记录（持续更新版）

半精度（FP16）调试血泪总结

Paper weekly

05-24

1322

©作者 | 董春玉单位 | OpenMMLab研究方向 | 深度视觉问题描述MMOCR在MMDeploy中部署时，PANet模型在以 TensorRT-fp16 为后端的情况下会有精度损失。hmean-iou 由原本的 0.8- 掉点到 0.2-。此时需要相应的 debug 查找问题原因。排除法查找节点首先请教了有相关经验的同事，被告知一般只能二分查找，没有更方便...

自动混合精度（amp）与梯度缩放

woshidayinxun的博客

12-27

344

包提供便利的混合精度操作方法，即对应不同的层采取不一样的浮点数精度（），以减小模型计算时间与内存资源为目的。配合完成自动混合精度的功能。

Pytorch AMP——自动混合精度训练

即事多所欣的博客

02-08

1699

Pytorch 自动混合精度训练介绍