- 博客(3)
- 收藏
- 关注
原创 昇思学习营:DeepSeek-R1 模型 JIT 推理优化实践学习心得
摘要:本文分享了在昇思学习营中关于DeepSeek-R1模型JIT推理优化的实践经验。通过MindSpore的静态图编译和算子融合技术,结合昇腾NPU特化优化,在香橙派20T开发板上实现了显著性能提升。关键优化包括强制GRAPH_MODE、O2级编译优化和图算融合,使后续token生成延迟降低10.9倍,内存峰值减少31%。实战部分详细介绍了环境配置、核心代码改造(包括JIT装饰器和静态缓存优化)以及性能对比测试结果,展示了JIT优化在资源受限设备上的显著效果。
2025-08-02 15:58:51
272
原创 昇思学习营:LoRA 模型微调学习心得
本次昇思学习营课程围绕昇腾开发板+MindSpore框架实现Qwen-1.5B模型的LoRA微调实战。课程重点讲解了LoRA微调原理(仅训练Attention层旁支的低秩矩阵,参数量降低99.5%),并针对香橙派开发板的内存限制问题提供了FP16直接加载、cgroup内存控制等解决方案。实践环节使用《甄嬛传》对话数据集进行微调,显存占用从12.3GB降至4.8GB,成功实现角色风格转换。关键经验包括:必须开启pynative同步调试、使用npu-smi监控显存、自定义Callback保存adapter权重等
2025-08-02 15:23:10
328
原创 昇思学习营:昇思+昇腾开发板+DeepSeek学习心得
摘要: 昇思学习营系统介绍了DeepSeek系列模型的技术创新与昇腾开发板实践应用。课程重点解析了DeepSeek V3/R1的MoE架构、慢思考模型等核心技术,包括预训练优化、后训练强化和推理部署方案。通过昇腾开发板实战,学员掌握了从模型微调到推理加速的全流程,实现了通信开销降低40%、推理吞吐提升2.8倍等性能突破。课程突出MindSpore框架的生态优势,涵盖Transformers支持、多模态生成等套件,为开发者提供了从边缘设备到服务器集群的完整AI解决方案路径。
2025-07-29 00:08:18
413
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅