解决方法很简单在训练指令中加上
--sleep_level 1
原理:
sleep_level设置为1,可以让模型的权重临时卸载到cpu并且清空kv缓存,导致显存累加的情况就是kv缓存引起的。GRPO训练过程中会生成大量的token,加重kv缓存的存量。
解决方法很简单在训练指令中加上
--sleep_level 1
原理:
sleep_level设置为1,可以让模型的权重临时卸载到cpu并且清空kv缓存,导致显存累加的情况就是kv缓存引起的。GRPO训练过程中会生成大量的token,加重kv缓存的存量。
1784
1012

被折叠的 条评论
为什么被折叠?