DeepSeek系列详解
文章平均质量分 93
算法熔炉
大模型算法工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
全面解析DeepSeek算法细节(1) —— 混合专家(Mixture of Expert, MoE)
DeepSeek系列模型算法细节剖析之混合专家(MoE)原创 2025-02-26 23:29:26 · 3444 阅读 · 0 评论 -
DeepSeek发布新的注意力机制NSA(论文详解)
长上下文建模对于下一代语言模型至关重要,然而标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力为在保持模型能力的同时提高效率提供了一个有前景的方向。我们提出了原生可训练稀疏注意力机制(NSA),它将算法创新与硬件适配优化相结合,以实现高效的长上下文建模。NSA采用动态分层稀疏策略,将粗粒度token压缩与细粒度token选择相结合,既保留了全局上下文感知,又保证了局部精度。我们的方法通过两项关键创新推进了稀疏注意力设计:原创 2025-02-19 22:24:08 · 3134 阅读 · 0 评论 -
DeepSeek-R1论文详解
DeepSeek-R1论文详细解读原创 2025-02-21 08:15:00 · 1425 阅读 · 0 评论
分享