
DeepSeek 实用集
文章平均质量分 82
专注技术落地,用简洁语言分享AI、编程、数据分析等实用技能,覆盖职场效率、开发实战与生活场景。
► 提炼高频问题的一站式解决方案
► 开源工具+实战方法论,降低试错成本
► 拒绝空谈,聚焦可复用的知识颗粒
面向职场、开发者及科技爱好者,让技术转化为真实生产力,用最小学习成本解决工作与生活中的具体问题
花生糖@
持续开发,收集,分享IT行业最新咨询,源代码。
更多内容请关注
微信公众号:胖墩游戏
知识星球:胖墩游戏圈
展开
-
DeepSeek开源周:面向大模型训练的三个工具包
在2025年的开源周中,DeepSeek推出了一系列旨在优化大规模模型训练效率的工具。这些工具包括DualPipe、EPLB以及Profile-data,它们分别从不同的角度解决了万亿参数模型训练中的算力瓶颈问题,为行业带来了前所未有的加速和效率提升。原创 2025-03-05 07:30:00 · 46 阅读 · 0 评论 -
DeepSeek 开源 DeepGEMM:重构 AI 算力极限,Hopper GPU 性能突破 1350+ TFLOPS
它通过双级累加机制(FP8计算+BF16累加)解决了低精度计算中的误差问题,并利用Hopper TMA特性实现异步数据搬运,显存带宽达到2668 GB/s,使得万亿参数级别的大模型推理效率提高了37%。专为AI计算优化设计,DeepGEMM凭借其简洁高效的代码、创新性的FP8低精度性能以及对混合专家(MoE)模型的适配能力,成为大模型训练与推理的强大加速引擎。通过这次发布,DeepGEMM不仅带来了技术上的重大突破,也标志着AI算力的发展方向正从依赖硬件堆叠转向算法优化的新阶段。原创 2025-02-28 14:27:24 · 342 阅读 · 0 评论 -
DeepSeek开源:DeepEP深度解析:MoE模型通信效率的颠覆性突破
全对全通信的硬件级重构高吞吐内核:采用NVLink(节点内160GB/s)与RDMA(跨节点50GB/s)的带宽转发优化,支持4096 tokens/批次的预训练场景。通过流水线调度技术,在非对称带宽场景(如NVLink→RDMA)下仍保持90%以上的带宽利用率。低延迟内核:推理解码阶段采用纯RDMA传输,结合自适应路由算法,使128 tokens/批次的生成任务延迟降至微秒级。测试显示,处理8个专家时分发延迟仅163μs,合并延迟318μs。原创 2025-02-28 07:30:00 · 328 阅读 · 0 评论 -
DeepSeek开源:FlashMLA深度解析:Hopper架构上的大模型推理革命
FlashMLA不仅是一项技术创新,更是AI算力民主化的重要里程碑。其通过软件定义硬件的路径,在Hopper架构上实现了超越物理限制的性能突破,为国产GPU生态发展提供了可复用的方法论。当3000GB/s的内存带宽照亮大模型落地的最后一公里,我们或许正在见证一个新时代的开启——在这个时代里,每个开发者都能用消费级硬件构建工业级AI服务。(技术细节及完整测试数据参见GitHub仓库:https://github.com/deepseek-ai/FlashMLA)原创 2025-02-27 20:00:00 · 300 阅读 · 0 评论 -
DeepSeek 实用集成
将 DeepSeek 大模型能力轻松接入各类软件原创 2025-02-08 18:47:59 · 1467 阅读 · 0 评论