【分布式训练】Accelerate 多卡训练，单卡评测，进程卡住的解决办法

天杪

于 2023-08-02 12:45:36 发布

阅读量2.2k

点赞数 1

文章标签：深度学习 accelerate

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_15046309/article/details/132059513

版权

作者在将模型转换为多卡训练时遇到困难，起初尝试使用Transformers的Trainer但失败。后来发现accelerate库更适合其需求，但单卡评测时遇到卡顿问题。通过调试发现评测时直接使用模型会引发问题，改用`model.module(**inputs)`解决。还需注意在单卡评测中不必传递dev_dataloader给accelerate。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近想把之前的一个模型的改成多卡训练的。我并不懂DDP，DP。一开始打算使用Transformers的Trainer，但是配置的过程踩了很多坑也没有弄成功。【我是自己写的评测方法，但是我找不到能让触发Trainer去用我的方法评测的路劲】，后来偶然的机会知道了accelerate库，这个库没有Trainer那么高级抽象，正适合我。

按照官方的教程随便更改就可以了。但是因为我这个项目的特殊性，我决定不多卡评测，也没必要，因为之前单卡评测就两分钟就出结果了。于是我决定使用多卡训练+单卡评测。

但是单卡评测的时候又踩坑了，就是评测结束后，就卡住了，卡住了……不往下接着训练了。

于是我开始写print 观察这几个进程在哪里停住了，删掉评测部分看能不能正常运行（结果正常运行了），后来最终定位出了原因：只要在评测部分使用模型，例如 model(**input)就会在评测结束后卡住，评测的过程倒很正常。

网上查找到了解决办法：在评测过程中，一直使用

model.module(**inputs)

就解决了。

其他的一些注意事项：

因为是单卡评测，所以不用将dev_dataloader交给 accelerate。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。