使用swift框架做GRPO训练过程中出现显存累加Out of Memory问题的解决方案和原理

最新推荐文章于 2025-12-05 11:17:30 发布

原创最新推荐文章于 2025-12-05 11:17:30 发布 · 98 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

解决方法很简单在训练指令中加上

--sleep_level 1

原理：
sleep_level设置为1，可以让模型的权重临时卸载到cpu并且清空kv缓存，导致显存累加的情况就是kv缓存引起的。GRPO训练过程中会生成大量的token，加重kv缓存的存量。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

errorwarn

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【大模型问题】ms-swift微调时，显存持续增长原因分析与解决方案

m0_47867638的博客

06-24

371

-dtype。

swift微调多模态大语言模型

liguandong

05-05

2386

Qwen1.5微调训练脚本中，我用到了--dataset new_data.jsonl 这个选项，可以训练成功，但我看文档有提到--custom_train_dataset_path这个选项，这两个有什么区别呢，是不是对自己生成的数据集用--dataset new_data.jsonl 这种方式是不对的，但是为什么又确实训练成功了呢（至少模型确实学习到了训练资料中的知识） # Experimental environment: A100 # 2*40GB GPU me...

参与评论您还未登录，请先登录后发表或查看评论

ms-swift 部分命令行参数说明

飞询

06-22

1746

本文介绍了深度学习模型训练中的关键参数设置。主要包括：1)训练轮数(num_train_epochs)控制数据遍历次数；2)批量大小(per_device_train_batch_size)影响训练速度和内存；3)学习率(learning_rate)决定参数调整幅度；4)预热比例(warmup_ratio)实现学习率渐增；5)LoRA相关参数(lora_rank,lora_alpha)控制适配矩阵复杂度；6)数据分割(split_dataset_ratio)划分训练/验证集。此外还介绍了梯度累计(gradi

swift微调参数

qq_33176363的博客

08-16

4644

等参数继承于lora的对应参数, 但。时生效. adalora的。

LLM 大模型学习必知必会系列(七)：掌握分布式训练与LoRA/LISA微调：打造高性能大模型的秘诀进阶实战指南

丨汀、的博客

05-22

1238

LLM 大模型学习必知必会系列(七)：掌握分布式训练与LoRA/LISA微调：打造高性能大模型的秘诀进阶实战指南

FP8 训练的挑战和最佳实践

NVIDIA_Community的博客

02-05

1748

我们选择更低精度的出发点是为了加快训练速度，更快的训练速度意味着可以用更多数据训练更大模型，根据Scaling Law得到更好模型效果，或者在更短的时间内训练出性能相当的模型。另一方面，低精度训练格式天然对模型训练效果有影响，因此需要找到方法使FP8训练在绝大多数case下稳定收敛，达到与高精度训练相近的模型效果。

LLM 大模型学习必知必会系列：掌握分布式训练与LoRA/LISA微调：打造高性能大模型的秘诀进阶实战指南

2401_85375186的博客

01-03

1143

上面我们构建了一个最小的训练和推理流程。大多数时候开发者需要自定义一个训练流程和对应的数据集。选择一个启动训练的方式，界面方式可以使用上述的web-ui命令（swift web-ui），命令行方式可以参考：注意命令行具有很多可调节参数，可以查看文档来查看这些参数的具体意义。如果想要了解训练流程可以查看训练代码了解超参数的拼接和处理可以查看超参数的处理代码了解所有支持的模板可以查看模板的拼接选择一个需要参与训练的模型，可以参考支持的模型列表。

LLM大模型学习：掌握分布式训练与LoRA、LISA微调

2401_85280228的博客

06-27

1076

上面我们构建了一个最小的训练和推理流程。大多数时候开发者需要自定义一个训练流程和对应的数据集。

大模型并行训练

weixin_45901142的博客

10-27

1784

xiaoli8748的专栏

09-22

1222

上面我们构建了一个最小的训练和推理流程。大多数时候开发者需要自定义一个训练流程和对应的数据集。选择一个启动训练的方式，界面方式可以使用上述的web-ui命令（swift web-ui），命令行方式可以参考：代码语言：javascript复制注意命令行具有很多可调节参数，可以查看文档来查看这些参数的具体意义。如果想要了解训练流程可以查看训练代码了解超参数的拼接和处理可以查看超参数的处理代码了解所有支持的模板可以查看模板的拼接选择一个需要参与训练的模型，可以参考支持的模型列表。

FlashAttention3 全解析：速度、精度、显存的再平衡

和大家一起涨芝士

08-19

1395

论文《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》提出了 FlashAttention 系列，通过精细设计的 kernel fusion 和 tile-based 计算策略，显著提升了效率，极大地缓解了显存压力。

TensorRT笔记（5）：研究timingCache

ouliten的博客

12-02

1098

在里出现了大量的timingCache，但是当时没有取研究这是干啥的，本文就来解析一下。样例都基于上面的文章。

【模式识别与机器学习（8）】主要算法与技术（下篇：高级模型与集成方法）之元学习与集成方法：组合多个学习器来提高整体性能

hiliang521的博客

12-02

902

【模式识别与机器学习（8）】主要算法与技术（下篇：高级模型与集成方法）之元学习

大模型应用：大模型 MapReduce 全解析：核心概念、中文语料示例实现.12

minhuan的专栏

12-03

1197

本文介绍了MapReduce编程模型及其在大模型训练中的应用。MapReduce通过"分治-并行-聚合"思想处理大规模数据，传统Hadoop MapReduce侧重结构化数据计算，而大模型MapReduce则针对自然语言处理任务。文章详细对比了两者在架构、处理对象和核心算力等方面的差异，并提供了中文词频统计的Python实现示例，包括单机版和分布式版本。分布式实现利用多进程模拟集群计算，展示了数据分片、Map、Shuffle和Reduce的完整流程。

人工智能的基石之三：硬件

最新发布

最简单的方法，解决最实际的问题。

12-05

580

高性能硬件是人工智能的基石，尤其是在机器学习和深度学习领域，海量数据是常态。从充当计算机大脑的中央处理器 (CPU) 到加速计算的图形处理器 (GPU)，硬件的作用是提供处理和运行复杂数据算法所需的原始能力。

AI泡沫什么时候破？

脑极体

12-04

577

而AI企业面对的短期形势，可能更为严峻。而AI公司和技术服务商，为了迎合决策者或拿下B端大项目，往往不计成本的低价竞标，无视人工成本的驻场开发，技术价值让位于领导偏好，企业自身也深陷人效黑洞，沦为挣辛苦钱的技术外包。To B/G不赚钱，To C也卖不上价，所以目前AI领域唯一清晰的商业模式，就是类似英伟达的“卖铲人”模式，卖加速卡和算力的企业成了这一轮AI浪潮的最大受益人。去伪存真之后，资本会冷却，叙事会修正，共识会重新凝聚，而那些持续追问“AI如何创造真实价值”的人，会与行业一同穿越周期，走向成熟。

【AI是否能替代IT从业者？】

博文致力于人工智能算法的探索研究；前后端分离项目的技术分享交流；专升本计算机基础课程内容讲解；各种中间件技术分享

12-03

1073

2025年IT行业面临AI深度重构：基础开发、测试、运维岗位替代率超60%，但AI相关新兴岗位激增380%。人类在复杂系统设计、伦理决策和跨界融合领域仍具不可替代性。微软等企业实践显示，人机协作可使效率提升40%。从业者需转型高价值领域（如Agent开发、大模型工程），掌握"技术+领域"双轨能力。AI本质是职业生态重构器，持续学习者的薪资溢价可达150%。建议立即评估岗位AI暴露指数，优先学习分布式架构优化、多智能体开发等技能。

AI驱动的网联自动驾驶汽车网络安全测试方法

NewCarRen的博客

12-03

1012

本文综述了网联自动驾驶汽车(CAV)网络安全测试面临的挑战与解决方案。随着CAV普及，网络攻击风险加剧，现有渗透测试方法面临测试环境成本高、专业人才匮乏等挑战。研究表明，人工智能(AI)在传统行业渗透测试中展现出缩短时间、提高效率的优势，但在CAV领域应用仍存在明显缺口。文章重点分析了强化学习等AI算法在渗透测试中的应用潜力，指出创建仿真环境是测试AI模型有效性的可行方案。开源工具VEINS被推荐为合适的仿真平台，其Python/C++接口便于AI模型集成。研究认为，若证实AI方法有效，可扩展应用于完整CA

建筑数字孪生与AI：工地数据化与智能决策解析

Azhiyuanshijie的博客

12-04

273

数字孪生整合BIM模型、无人机影像、传感器数据，构建工地虚拟模型。施工状态、材料使用、设备运行数据被实时采集，支撑预测与优化。服务，将算法嵌入实际施工管理系统，实现数据采集、分析、优化和决策闭环。系统可与BIM、ERP集成，形成完整数字孪生解决方案。通过虚拟映射和AI算法，施工过程从经验驱动转向数据驱动。数字孪生+AI，让工地变成“数据实验室”，提升效率、降低风险，并推动建筑企业迈向智能化时代。，企业可展示施工技术实力，实现品牌影响力和潜在客户转化。：AI提出最优施工方案，提升效率和安全。

CRRouter框架：Swift开发中的模块化路由解决方案

综上所述，CRRouter作为一个路由库，为Swift开发者提供了一种高效、易于管理的路由解决方案，不仅提高了开发效率，也显著改善了应用的可维护性和扩展性。在处理复杂的项目结构时，CRRouter能显著提升开发体验，是...