
DeepSeek
文章平均质量分 95
歌刎
苍云道,陈云青
展开
-
从 Transformer 到 DeepSeek-R1:大型语言模型的变革之路与前沿突破
本文详述大型语言模型(LLM)自 2017 年至 2025 年的发展历程。以 Transformer 架构为起点,其自注意力机制革新自然语言处理范式。随后 BERT、GPT 等模型相继涌现,GPT-3 展示出少样本和零样本学习能力,但 “幻觉” 问题凸显。2022 年 ChatGPT 通过 SFT 和 RLHF 技术应对该问题并引发全球关注。2023 - 2024 年多模态模型兴起,同时开源模型发展迅速。2024 年推理模型强调增强推理能力。原创 2025-03-02 00:54:01 · 1281 阅读 · 0 评论 -
DeepSeek开源周Day5: 3FS存储系统与AI数据处理新标杆
本文聚焦 DeepSeek 开源周最后一天发布的 3FS 和 smallpond 项目。3FS 作为分布式文件系统,通过解耦式存储资源池、CRAQ 强一致性协议和无状态元数据服务,在存储性能上实现重大突破,实测读吞吐量达 6.6TiB/s,并在数据预处理等多个应用场景展现优势。smallpond 则是基于 DuckDB 和 3FS 的轻量级大数据处理框架,具备无状态计算范式、智能数据分片和混合执行引擎等亮点,在 110TB 排序测试中仅需 30 分钟,硬件成本低。文中还对比了 OpenAI GPT - 4.原创 2025-02-28 23:52:55 · 1485 阅读 · 0 评论 -
DeepSeek开源周Day3:DeepGEMM-深度学习计算新标杆,300行代码释放FP8极致性能,全面加速MoE大模型训练推理
eepSeek 开源周第三日发布 DeepGEMM,这是专为 NVIDIA Hopper 架构优化的 FP8 矩阵乘法库。其核心代码仅约 300 行,却在性能上超越 CUTLASS 3.6。文中解析了 FP8 精度和 GEMM 的重要性,通过实测展示其在标准矩阵计算和 MoE 模型中的优化表现。介绍了架构创新,包括张量内存加速器和即时编译技术,以及针对 MoE 模型的专项优化。还提供了快速部署指南,并对技术进行展望,解释了相关专业术语。原创 2025-02-26 19:42:26 · 874 阅读 · 0 评论 -
V100 上用 ms-swift 框架部署 DeepSeek-R1-Distill-Qwen-7B 超全攻略
本文详细介绍如何运用 ms - swift 框架在 V100 设备上部署 DeepSeek - R1 - Distill - Qwen - 7B 模型。开篇明确所需环境,如 x86_64 架构、ubuntu 22.04 或 centos 7 系统、V100 GPU 等。接着依次阐述依赖安装、模型下载步骤,还展示推理测试、部署测试及并发测试过程。原创 2025-02-06 18:54:45 · 1991 阅读 · 0 评论 -
2025 最新 DeepSeek-R1-Distill-Qwen-7B vLLM 部署全攻略:从环境搭建到性能测试(V100-32GB)
本文详细介绍了在 2025 年进行 DeepSeek-R1-Distill-Qwen-7B 模型基于 vLLM 的部署过程。从环境准备开始,包括硬件与软件环境要求,如特定的操作系统、GPU 型号、Python 版本、CUDA 及 PyTorch 版本等,指导读者完成基础环境搭建。接着深入依赖安装环节,细致讲解了使用 conda 创建虚拟环境、pip 换源加速下载依赖包以及安装 CUDA 和 PyTorch 的要点,并提供检查安装是否成功的方法。原创 2025-02-06 13:22:07 · 3451 阅读 · 0 评论 -
V100 上用 ms-swift 框架部署 DeepSeek-R1-Distill-Qwen-14B 超全攻略
本文详细介绍如何运用 ms-swift 框架在 V100 设备上部署 DeepSeek-R1-Distill-Qwen-14B 模型。开篇明确所需环境,如 x86_64 架构、ubuntu 22.04 或 centos 7 系统、V100 GPU 等。接着依次阐述依赖安装、模型下载步骤,还展示推理测试、部署测试及并发测试过程。原创 2025-02-07 12:20:24 · 2109 阅读 · 0 评论 -
DeepSeek R1 “顿悟时刻”(Aha Moment) 的重现与探索:基于 GRPO 的倒计时游戏训练
本文聚焦于 DeepSeek R1 的发布,介绍了其在行业中的震撼影响。作者尝试使用组相对策略优化(GRPO)和倒计时游戏重现 DeepSeek R1 的 “顿悟时刻”。文中详细阐述了开发环境设置、训练样本生成、使用 GRPO 训练模型(包括奖励函数的定义和训练参数设置)、分布式训练示例、训练结果观察等内容。原创 2025-02-10 21:09:45 · 1145 阅读 · 0 评论 -
探秘 DeepSeek-R1:推理大语言模型的深度解析与启示
本文围绕推理大语言模型中的佼佼者 DeepSeek - R1 展开深度剖析。开篇阐述推理模型定义与应用场景,明确其在复杂任务中的优势。接着详细介绍 DeepSeek - R1 的训练流程,包括 R1 - Zero、R1 和 R1 - Distill 三种变体的训练差异。深入解读构建和改进推理模型的四种方法,对比分析其特性。同时探讨 DeepSeek - R1 与 o1 的性能差异、训练成本,并分享小成本训练推理模型的策略原创 2025-02-06 19:24:33 · 712 阅读 · 0 评论 -
DeepSeek开源周Day1:FlashMLA引爆AI推理性能革命!
DeepSeek 于 2025 年 2 月 24 日 9 点(北京时间)开源「FlashMLA」,引发社区热烈反响。该项目专为 Hopper 架构 GPU 优化,上线 45 分钟获 400+ Star,3 小时突破 2.7k 星标。文中详细解析了其核心技术,包括硬件级优化、动态序列处理、开箱即用等亮点,对比了传统 MHA 和创新 MLA 的效率差异,阐述了 MLA 通过低秩变换实现知识共享,减少冗余计算,提升硬件效率的原理,并列举了分块 KV 缓存等三大黑科技。还以 32k 上下文的 175B 模型为例说明原创 2025-02-24 19:57:02 · 1718 阅读 · 0 评论 -
DeepSeek近日发布论文Native Sparse Attention:硬件对齐且可原生训练的稀疏注意力机制
本文聚焦于自然语言处理领域长序列建模的难题,介绍一种名为 NSA(Natively trainable Sparse Attention)的硬件对齐且原生可训练的稀疏注意力机制。阐述了其核心贡献、技术突破点及现实影响,包括首次实现硬件对齐的稀疏注意力机制,在长序列处理上显著提升效率等。详细说明了其方法原理、整体框架、算法设计、内核设计,通过实验对比评估其性能,分析效率,并探讨了相关工作、替代策略的挑战、可视化结果等,最后总结了 NSA 在长上下文建模中的优势和前景。文中还提供了论文地址、代码仓库及领域专家原创 2025-02-24 18:02:13 · 1272 阅读 · 0 评论 -
2025 最新 DeepSeek-R1-Distill-Qwen-14B vLLM 部署全攻略:从环境搭建到性能测试(V100-32GB * 2)
本文详细介绍了在 2025 年进行 DeepSeek-R1-Distill-Qwen-14B 模型基于 vLLM 的部署过程。从环境准备开始,包括硬件与软件环境要求,如特定的操作系统、GPU 型号、Python 版本、CUDA 及 PyTorch 版本等,指导读者完成基础环境搭建。接着深入依赖安装环节,细致讲解了使用 conda 创建虚拟环境、pip 换源加速下载依赖包以及安装 CUDA 和 PyTorch 的要点,并提供检查安装是否成功的方法。原创 2025-02-06 20:32:10 · 10034 阅读 · 6 评论 -
华为昇腾部署 DeepSeek-R1 (671B) 大模型实战指南
本文是一份全面的华为昇腾 Atlas 800I A2 服务器集群部署 DeepSeek-R1 671B 大模型的指南。内容涵盖部署前的硬件和软件要求、模型权重处理(包括下载、格式转换)、昇腾镜像配置(获取、启动及测试)、分布式推理配置、服务化部署(环境变量配置、参数修改、拉起服务及接口测试)、高级量化方案(支持类型和量化命令示例),还提供了常见问题排查方法和丰富的资源链接,助力用户完成在华为昇腾平台上的模型部署。原创 2025-02-11 03:00:00 · 11346 阅读 · 2 评论 -
DeepSeek R1 蒸馏系列模型测评,生产落地部署极致性价比评估
本文深度评测了 DeepSeek R1 近期开源的蒸馏系列模型。从模型指标、成本、性能、能力多个维度进行对比测试,通过对模型版权、资源需求、实际部署后显存占用和并发性能测试,以及逻辑推理、语言理解等多方面能力测评,全面分析各模型的优劣。最终揭晓性价比最高的模型,同时探讨模型在实际应用中的优化思路,为你在模型选择与应用上提供极具价值的参考。原创 2025-02-09 00:08:47 · 7721 阅读 · 1 评论 -
消费级 PC 本地部署 DeepSeek-R1满血版 (671B)指南
当多数人还在惊叹 DeepSeek 破圈时,技术达人已在悄悄行动。你敢想象在普通消费级 PC 上,成功部署运行 DeepSeek-R1 671B 吗?这不再是天方夜谭。本文将带你深入探索这一技术奇迹,从模型选择、硬件需求剖析,到详细的部署步骤讲解,还有实测效果大揭秘。无论你是 AI 小白还是技术大神,都能从中找到乐趣与启发原创 2025-02-07 13:11:20 · 19777 阅读 · 2 评论 -
Linux 快速部署DeepSeek-R1 蒸馏系列模型
本文记录使用 ms-Swift 框架 对 DeepSeekR1 蒸馏系列模型(7B、14B)在 A100(40GB)* 1 服务器上部署过程与测试结果。原创 2025-02-08 14:35:14 · 2882 阅读 · 0 评论 -
DeepSeek R1 大模型信息汇总!本地部署与使用技巧大全
想掌握 DeepSeek R1 大模型的使用技巧吗?这篇文章帮你搞定。文中会为你提供超详细的本地部署教程,哪怕是技术小白也能轻松上手。此外,还分享了丰富的新手和高级使用技巧,无论是日常使用还是深度挖掘模型潜力,都能让你收获满满,快速成为 DeepSeek R1 使用高手。原创 2025-02-08 10:50:01 · 2727 阅读 · 0 评论 -
华为昇腾 910B 部署 DeepSeek-R1 蒸馏系列模型详细指南
本文全面记录了在华为昇腾 910B (65GB) * 8 上部署 DeepSeekR1 蒸馏系列模型(14B、32B)的全过程及测试结果。涵盖模型下载、权重转换、环境依赖安装、镜像拉取与启动、环境确认以及模型服务启动配置设置等环节。文中详细介绍了每一步的操作命令和注意事项,并对可能出现的问题提供了相应的解决方法和建议,为相关技术人员提供了完整且实用的部署参考。原创 2025-02-17 16:28:17 · 7815 阅读 · 3 评论 -
DeepSeek开源周Day2:DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库
本文介绍了 DeepSeek 开源的高性能通信库 DeepEP。它专为混合专家模型(MoE)和专家并行(EP)场景设计,旨在解决大模型训练中 GPU 间数据通信的瓶颈问题。文中阐述了其核心功能与设计理念,包括域间带宽优化、低精度计算支持、通信 - 计算重叠等技术亮点。通过性能实测展示了在不同场景下的出色表现,如高吞吐、低延迟等。还介绍了架构设计、快速入门指南、高级调优建议、应用场景与案例等,并提及了开源生态和注意事项。DeepEP 的推出标志着 MoE 训练进入新阶段,有望推动千亿级模型突破训练效率边界。原创 2025-02-25 13:15:46 · 2162 阅读 · 0 评论