
最前沿的大模型训练部署实践手册
文章平均质量分 88
歌刎
苍云道,陈云青
展开
-
DeepSeek开源周Day1:FlashMLA引爆AI推理性能革命!
DeepSeek 于 2025 年 2 月 24 日 9 点(北京时间)开源「FlashMLA」,引发社区热烈反响。该项目专为 Hopper 架构 GPU 优化,上线 45 分钟获 400+ Star,3 小时突破 2.7k 星标。文中详细解析了其核心技术,包括硬件级优化、动态序列处理、开箱即用等亮点,对比了传统 MHA 和创新 MLA 的效率差异,阐述了 MLA 通过低秩变换实现知识共享,减少冗余计算,提升硬件效率的原理,并列举了分块 KV 缓存等三大黑科技。还以 32k 上下文的 175B 模型为例说明原创 2025-02-24 19:57:02 · 1718 阅读 · 0 评论 -
华为昇腾部署 DeepSeek-R1 (671B) 大模型实战指南
本文是一份全面的华为昇腾 Atlas 800I A2 服务器集群部署 DeepSeek-R1 671B 大模型的指南。内容涵盖部署前的硬件和软件要求、模型权重处理(包括下载、格式转换)、昇腾镜像配置(获取、启动及测试)、分布式推理配置、服务化部署(环境变量配置、参数修改、拉起服务及接口测试)、高级量化方案(支持类型和量化命令示例),还提供了常见问题排查方法和丰富的资源链接,助力用户完成在华为昇腾平台上的模型部署。原创 2025-02-11 03:00:00 · 11346 阅读 · 2 评论 -
DeepSeek R1 “顿悟时刻”(Aha Moment) 的重现与探索:基于 GRPO 的倒计时游戏训练
本文聚焦于 DeepSeek R1 的发布,介绍了其在行业中的震撼影响。作者尝试使用组相对策略优化(GRPO)和倒计时游戏重现 DeepSeek R1 的 “顿悟时刻”。文中详细阐述了开发环境设置、训练样本生成、使用 GRPO 训练模型(包括奖励函数的定义和训练参数设置)、分布式训练示例、训练结果观察等内容。原创 2025-02-10 21:09:45 · 1145 阅读 · 0 评论 -
DeepSeek R1 大模型信息汇总!本地部署与使用技巧大全
想掌握 DeepSeek R1 大模型的使用技巧吗?这篇文章帮你搞定。文中会为你提供超详细的本地部署教程,哪怕是技术小白也能轻松上手。此外,还分享了丰富的新手和高级使用技巧,无论是日常使用还是深度挖掘模型潜力,都能让你收获满满,快速成为 DeepSeek R1 使用高手。原创 2025-02-08 10:50:01 · 2727 阅读 · 0 评论 -
ms-swift3.1.0 发布,多项新特性与新模型数据集来袭
ms-swift3.1.0 于 PyPI 发布,有新特性如数据采样等,新模型 Qwen 等系列,还有新数据集,快来了解。原创 2025-02-07 21:58:46 · 391 阅读 · 0 评论 -
SWIFT & EvalScope:魔搭社区大模型微调部署与评测的强大利器
本文主要介绍了魔搭社区的两大重要框架 ——SWIFT 和 EvalScope。SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)是大模型与多模态大模型微调部署框架,ms-swift 3.0 已发布,支持 450 + 大模型及 150 + 多模态大模型的训练等环节,汇集多种训练技术,支持加速与量化,还提供 Web - UI 界面。EvalScope 是模型评测与性能基准测试框架,支持多种模型类型和评测场景,内置常用测试基准和指标,且与 ms -原创 2025-02-07 21:51:59 · 1081 阅读 · 0 评论 -
持续更新 | 大模型与多模态训练部署利器:魔搭社区ms-swift框架完全指南
这篇博文主要围绕 SWIFT(Scalable lightWeight Infrastructure for Fine-Tuning)展开。它欢迎各类贡献,如 Feature PR、Bug 反馈等。博文中介绍了丰富的数据集,包括多种 VCR、MMBench 等相关数据集,还给出了数据集具体介绍的查看链接。同时,提供了中英文文档、论文链接等资源,方便用户了解。另外,还有关于许可的说明,框架使用 Apache License (Version 2.0) 进行许可,模型和数据集需查看原资源页面遵守对应 Licen原创 2025-02-07 21:43:58 · 1515 阅读 · 0 评论