DeepSeek
文章平均质量分 95
老周聊架构
微信公众号:老周聊架构
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek技术架构解析:MLA多头潜在注意力
我们上一篇已经讲了 DeepSeek技术架构解析:MoE混合专家模型这一篇我们来说一说DeepSeek的创新之一:MLA多头潜在注意力。MLA主要通过优化KV-cache来减少显存占用,从而提升推理性能。我们知道这个结论之前,老周带大家一起梳理一下从MHA、MQA、GQA到MLA的演变历程,并着重介绍一下MLA的设计思路。DeepSeek这次的破圈,主要的创新之一:Multi-head Latent Attention架构(MLA),作为对Grouped-Query Attention(GQA)的颠覆性升级原创 2025-04-01 23:40:57 · 1820 阅读 · 0 评论 -
DeepSeek技术架构解析:MoE混合专家模型
2025年初,DeepSeek V3以557万美元的研发成本(仅为GPT-4的1/14)和开源模型第一的排名,在全球AI领域掀起波澜。其核心创新之一——混合专家模型(Mixture of Experts, MoE)的优化设计,不仅突破了传统大模型的算力瓶颈,更以37B激活参数实现671B总参数规模的性能输出,成为开源社区与工业界关注的焦点。本文将从技术原理、工程创新、应用潜力及争议四个维度,深度解析这一架构的设计逻辑与行业意义。原创 2025-03-23 21:47:41 · 1928 阅读 · 0 评论
分享