秋风带凉.-优快云博客

原创昇思学习营：DeepSeek-R1 模型 JIT 推理优化实践学习心得

摘要：本文分享了在昇思学习营中关于DeepSeek-R1模型JIT推理优化的实践经验。通过MindSpore的静态图编译和算子融合技术，结合昇腾NPU特化优化，在香橙派20T开发板上实现了显著性能提升。关键优化包括强制GRAPH_MODE、O2级编译优化和图算融合，使后续token生成延迟降低10.9倍，内存峰值减少31%。实战部分详细介绍了环境配置、核心代码改造（包括JIT装饰器和静态缓存优化）以及性能对比测试结果，展示了JIT优化在资源受限设备上的显著效果。

2025-08-02 15:58:51 272

原创昇思学习营：LoRA 模型微调学习心得

本次昇思学习营课程围绕昇腾开发板+MindSpore框架实现Qwen-1.5B模型的LoRA微调实战。课程重点讲解了LoRA微调原理（仅训练Attention层旁支的低秩矩阵，参数量降低99.5%），并针对香橙派开发板的内存限制问题提供了FP16直接加载、cgroup内存控制等解决方案。实践环节使用《甄嬛传》对话数据集进行微调，显存占用从12.3GB降至4.8GB，成功实现角色风格转换。关键经验包括：必须开启pynative同步调试、使用npu-smi监控显存、自定义Callback保存adapter权重等

2025-08-02 15:23:10 328

原创昇思学习营：昇思+昇腾开发板+DeepSeek学习心得

摘要：昇思学习营系统介绍了DeepSeek系列模型的技术创新与昇腾开发板实践应用。课程重点解析了DeepSeek V3/R1的MoE架构、慢思考模型等核心技术，包括预训练优化、后训练强化和推理部署方案。通过昇腾开发板实战，学员掌握了从模型微调到推理加速的全流程，实现了通信开销降低40%、推理吞吐提升2.8倍等性能突破。课程突出MindSpore框架的生态优势，涵盖Transformers支持、多模态生成等套件，为开发者提供了从边缘设备到服务器集群的完整AI解决方案路径。

2025-07-29 00:08:18 413

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 昇思学习营：DeepSeek-R1 模型 JIT 推理优化实践学习心得

原创 昇思学习营：LoRA 模型微调学习心得

原创 昇思学习营：昇思+昇腾开发板+DeepSeek学习心得

空空如也

空空如也

原创昇思学习营：DeepSeek-R1 模型 JIT 推理优化实践学习心得

原创昇思学习营：LoRA 模型微调学习心得

原创昇思学习营：昇思+昇腾开发板+DeepSeek学习心得