
DeepSeek大模型解析:从原理到案例实战
文章平均质量分 91
聚焦中国自主研发的DeepSeek大模型技术生态,通过代码级技术解密、行业级应用实战与前沿趋势解读三大维度:
逐层拆解MoE架构:从稀疏激活原理到分布式训练工程实践
调优指南:基于DeepSeek-7B/67B的微调、量化、部署全流程实战
产业场景突围:覆盖金融代码生成、医疗知识推理、工业Agent
段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
解锁AI潜能:模型上下文协议(MCP)的革新与应用
MCP的架构设计简洁高效。以编程领域为例,集成MCP后,AI智能体能够更好地检索相关信息,理解编程任务的上下文,减少尝试次数,编写出更细致、更实用的代码。在这个开放的社区里,大家共同努力,有望推动上下文感知AI走向新的高度,让AI更好地服务于社会,创造更多价值。在以往,每接入一个新的数据源,开发者都需进行定制化开发,这种碎片化的集成方式不仅耗费大量时间和精力,而且难以实现大规模扩展。MCP的出现,彻底改变了这一局面,它提供了统一的标准,让开发者能够以更简单、可靠的方式为AI系统提供所需数据。原创 2025-03-31 21:32:50 · 58 阅读 · 0 评论 -
DeepSeek 专家负载均衡器(Expert Parallelism Load Balancer (EPLB)
DeepSeek 专家负载均衡器(Expert Parallelism Load Balancer (EPLB)当使用专家并行(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能会因当前工作负载而异,因此保持不同GPU的负载平衡非常重要。正如DeepSeek-V3论文中所描述的,采用冗余专家策略,复制重载专家。然后,将重复的专家打包到GPU上,以确保不同GPU之间的负载平衡。原创 2025-02-27 12:50:04 · 167 阅读 · 0 评论 -
DeepSeek-R1:模型部署与应用实践
DeepSeek-R1是一个基于Transformer架构的因果语言模型,它在预训练阶段学习了大量的文本数据,从而具备了理解和生成自然语言的能力。与其他模型相比,DeepSeek-R1在处理长文本、语义理解和生成质量上具有独特的优势,尤其适用于对话系统、文本生成等任务。通过以上步骤,成功部署了DeepSeek-R1模型,并实现了一个简单的对话系统。在实际应用中,还可以进一步优化模型的性能,例如调整超参数、使用更高效的硬件等。原创 2025-02-24 19:30:00 · 61 阅读 · 0 评论 -
构建医疗Mini DeepSeek R1:用强化学习训练
在当今快速发展的技术时代,大语言模型(LLMs)与医疗的结合带来了无限的机遇和独特的挑战。本文探索如何利用 Group Relative Policy Optimization(GRPO)——由 DeepSeek 团队最近引入的有前景的强化学习技术,来调整阿里巴巴的 Qwen-3B 模型,使其能够进行医疗推理。原创 2025-02-21 19:00:00 · 105 阅读 · 0 评论 -
DeepSeek的AHA 时刻 使用 Unsloth(GRPO)训练自己的 R1 推理模型
2025 年 2 月 6 日,由丹尼尔迈克尔带来的消息,迎来了名为 Unsloth 的推理新方法。DeepSeek 的 R1 研究中有一个“啊哈时刻”,R1 - Zero 通过组相对策略优化(GRPO)在没有人类反馈的情况下自主学习,分配更多的思考时间。并且,我们对整个 GRPO 过程进行了增强,使其使用的 VRAM 比Hugging Face + FA2. 少 80%,这意味着 可以使用 Qwen2.5(1.5B)在仅 7 GB 的 VRAM 上重现 R1 - Zero 的“啊哈时刻”。原创 2025-02-18 19:00:00 · 270 阅读 · 0 评论 -
DeepSeek - R1:模型架构深度解析
为了清楚理解MoE是什么,首先让我们看看它在Transformer中的确切使用位置以及其简要架构。标准Transformer层中的FFN被MoE所取代。MoE的核心是遵循标准的Transformer设计,但通过引入多个并行的专家网络(FFN)而不是单个密集的FFN来修改前馈层。多个FFN而非一个:MoE使用多个并行训练的FFN层(专家),而不是单个共享的FFN。输入处理和标记路由。原创 2025-02-17 19:15:00 · 1257 阅读 · 0 评论