- 博客(3)
- 收藏
- 关注
原创 如何优雅地抢占显卡
本文介绍了一个自动检测显卡空闲情况并及时抢占的Python脚本,帮助用户解决服务器抢不到显卡的问题。脚本主要功能包括检测显卡状态、执行训练命令以及定时检测。用户只需根据需求修改显卡数量、检测时间间隔和conda环境路径等参数即可使用。代码通过nvidia-smi命令获取GPU使用情况,并根据设定的空闲标准判断显卡是否可用。当检测到足够数量的空闲显卡时,脚本会自动启动训练任务。此外,脚本还支持动态调整检测间隔,并在训练任务失败后自动重试。通过该工具,用户可以更高效地利用服务器资源,避免手动抢显卡的烦恼。
2025-05-18 21:24:44
338
原创 如何准备EasyR1上的自建视频GRPO数据集
本来也想试试上传到hf上,结果密码忘记了,拿不到access token,之前找回密码的过程也很繁琐,因而就放弃了上传这条路。本人最近在尝试用GRPO训练Qwen2.5VL,使用的是EasyR1框架。本文档用于记录所遇到的问题以及解决办法,愿各位在数据集配置方面少走些坑。我是自建数据集,需要让数据集与EasyR1适配,这个过程耗了不少心力。EasyR1支持读入的是parquet文件,如下。而且还有一点需要注意,EasyR1的配置文件。文件里的源码(结合刚刚的那份源码一起看)这告诉我们,保存数据集应当以。
2025-04-26 17:53:16
1070
3
原创 使用vLLM进行Qwen2.5-VL推理的一些坑
本文主要是记录一下笔者在使用vLLM进行Qwen2.5-VL推理时踩的一些坑,希望大家不要重蹈我的覆辙
2025-04-04 16:56:24
1637
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人