B_DDD-优快云博客

原创 5分钟看懂Deepseek开源周之一：推理革命！DeepSeek开源FlashMLA黑科技：长文本处理提速5.76倍，中小公司也能玩转千亿模型

在一个普通的2月21日周五，把硅谷资本搅得天翻地覆的深度求索突然发布乐一个开源周的预告，一下子抓住了全行业的眼球。看得出来，这一周要来一波大的！

2025-03-02 14:31:36 1097

原创 5分钟看懂Deepseek开源周之二：中国AI逆袭！DeepEP开源打破算力垄断：单次训练成本仅为OpenAI 1/10，GitHub秒破5k星

深度求索开源周第二天：DeepEP（Expert Parallelism Communication Library）是专为设计的分布式通信库，主要应用于大规模语言模型（如GPT-4、DeepSeek-V3等）的场景。经过第一天的爆炸性开源，今天迎来了DeepEP的开源。可见的将来或许MoE训练效率飙升300%，算力成本砍半！

2025-03-02 12:45:29 840

原创 5分钟看懂Deepseek开源周之三：开源核弹！DeepGEMM凭FP8+MoE双杀：1350 TFLOPS碾压cuBLAS，大模型训练成本暴降50%

深度求索开源周第三天：DeepGEMM代表了大模型底层计算从“依赖硬件厂商优化”向“开源算法驱动”的范式转移，其技术方向将显著降低大模型训练门槛、加速稀疏架构创新，并推动行业形成更开放的软硬件协同生态。短期看，它可能成为MoE模型训练的事实标准；长期而言，其设计理念或影响下一代AI芯片的指令集架构设计。

2025-03-02 10:47:10 972

原创 5分钟看懂Deepseek开源周之四：Deepseek-V3/R1的“核弹级”优化并行策略----训练效率飙升545%！MoE负载不均时代终结

在预填充阶段，使用EP32和TP1配置，提示长度为4K，每个GPU的批处理大小为16K个令牌。利用两个微批次来重叠计算和全连接通信，确保注意力计算负载在两个微批次之间平衡。相同的提示可能会在这两个微批次之间分割，以平衡计算负载。在解码阶段，使用EP128、TP1和提示长度为4K的配置，每个GPU的批处理大小为128个请求。利用两个微批次来重叠计算和全连接通信。

2025-03-01 22:43:44 1145

原创 5分钟看懂Deepseek开源周之六：Deepseek-V3/R1推理系统设计----揭开深度求索模型系统设计和运营成本之谜

目录前言开源第六天：Deepseek-V3/R1推理系统设计该框架主要分为两个阶段：预填充（Prefill）阶段和解码（Decode）阶段，并且每个阶段都有负载均衡器和服务。

2025-03-01 17:36:30 1540

原创 5分钟看懂Deepseek开源周之五：AI并行训练大杀器3FS----大模型江湖将再兴“血雨腥风”

3FS是一种并行文件系统，其核心优势在于能够充分利用现代固态硬盘（SSD）和远程直接内存访问（RDMA）网络的全部带宽。现代SSD具备高速读写能力，而RDMA网络可以实现远程节点之间的快速数据传输，3FS将二者的优势结合，为数据访问提供高效支持。3FS系统通过硬件性能榨取（SSD+RDMA）、架构创新（分离式设计）和全流程优化（训练-推理协同），系统性解决了大模型训练中的数据与通信瓶颈。

2025-03-01 13:36:28 1496

原创 5分钟看看DeepSeek-R1做过的那些基准测试题（下）

Codeforces (Rating) 是编程竞赛平台 Codeforces 的核心评分系统，

2025-02-22 23:51:23 1394

原创 5分钟看看DeepSeek-R1做过的那些基准测试题(中）

FRAMES 是由 Google 与 Harvard University 联合发布的综合评估数据集，核心目标是评测大语言模型（LLMs）在统一框架中跨文档检索、多步骤推理与生成任务的协同能力。该基准通过模拟真实场景（如金融分析、学术研究等），要求模型整合多源异构数据（文本、表格、代码片段等）完成复杂任务。

2025-02-22 21:34:12 1803

原创 5分钟看看DeepSeek-R1做过的那些基准测试题（上）

MMLU（Massive Multitask Language Understanding）覆盖57个学科（如科学、人文、社科等）的英文选择题，要求模型具备广泛的跨领域知识。IFEval通过聚焦可验证指令（如字数限制、JSON格式等），实现自动化、客观的评估，帮助研究者明确模型在哪些类型指令上表现不足，并支持不同模型的对比分析。增加大学级别难题的比例：MMLU-Pro 增加了更多挑战性的大学水平考试题目，这些问题要求大语言模型在不同领域进行深思熟虑的推理，才能得出正确答案。

2025-02-16 13:36:41 1918

原创 DeepSeek-R1模型5分钟下载本地对话——忘掉CUDA、GPU和烦人的代码：OLLAMA本地部署DeepSeek R1全攻略

Ollama 支持在 Modelfile 中导入 GGUF 模型：创建一个名为Modelfile的文件，并在其中包含一个FROM指令，该指令指向你想要导入的模型的本地文件路径。在 Ollama 中创建模型运行模型。

2025-02-15 23:03:53 2705

原创满血671B DeepSeek-R1模型5分钟AI代码助手——效率飙升！手把手教你将 DeepSeek API 接入 Cursor 和 VSCode

打开硅基流动官网并注册/登录账号。完成注册后，打开 API 密钥，创建新的 API Key，点击密钥进行复制，以备后用。新建API密钥取名“test”，点击小眼睛图标，手动点击复制到常用的文档中。等DIFY的模型供应商设置好后需要粘贴进去，这样就实现了Deepseek对DIFY的链接，让Tokens可以通过API管道输入输出。

2025-02-12 22:39:31 1316 2

原创满血671B DeepSeek-R1模型5分钟打造AI应用——DeepSeek + Dify：零代码打造专属AI应用，小白也能玩转大模型！

编排”界面，将官方提示词模板复制粘贴上去，这规定了AI执行您的对话任务时的角色立场，它是我的新闻总结编辑，按照我规定的json格式把我提供的新闻稿整理出来。右上角“模型名”点击拉开列表选择最出色的Deepseek V3作为常规对话AI，在这种任务中会有更好的表现。而Deepseek R1是推理模型，在进行复杂任务推理或者深度文本创作中，常有令人惊奇的表现。DeepSeek以其卓越的开源模型推理性能，在全球范围内迅速获得关注。但由于官方模型 API 供不应求，许多开发者深感“无 API 可用”的窘迫。

2025-02-11 21:50:50 1449 1

原创满血671B DeepSeek-R1模型5分钟打造“豆包式AI“手机应用——API+ChatBox手机搭建推理智能体傻瓜级详细教程

严谨与想象Tempreture# 人物设定Prompt请你扮演一个刚从美国留学回国的人，说话时候会故意中文夹杂部分英文单词，显得非常fancy，对话中总是带有很强的优越感。

2025-02-05 01:38:27 7135

原创昇思打卡营第五期(MindNLP特辑）番外：硅基流动 x 华为云DeepSeek V3 API推理MindTinyRAG

昇思打卡营第五期(MindNLP特辑）课程五：基于MindNLP的LLM应用开发实战：从零开始的RAG应用开发上：实例代码上MindTinyRAG.ipynb和返回值解析_昇思打卡训练营第五期课程六-优快云博客第五课是讲MindNLP的RAG应用，这也是我们在使用AIAgent和知识库中最基本的技术。作为一个增强大模型表现的技术，它在2024年经历了飞速的发展和应用，毕竟比起微调来说它成本低得多。以此为基础的知识库应用也早已普及开来，组成了AI行业突发猛进又脚踏实地的重要拼图。

2025-02-04 00:46:31 1665

原创昇思打卡营第五期(MindNLP特辑）课程六：玩转香橙派开发板——基于MindSpore的AI开发实战（模型训练+LLM推理应用）作业：基于MindNLP套件迁移mimi模型中1700行模型代码

Mimi 编解码器是由 Kyutai 开发的一个语义-声学神经音频编解码器，其主要作用是将音频编码为适合语言模型处理的离散单元（mimi模型就是moshi音频llm的音频分词器），同时提供在低比特率下运行时的高质量音频表现，并且具有与实时生成兼容的低帧率。

2025-01-24 22:28:45 1119

原创昇思打卡营第五期(MindNLP特辑）课程六：玩转香橙派开发板——基于MindSpore的AI开发实战（模型训练+LLM推理应用）作业：基于MindNLP套件迁移mimi模型上代码解读

Mimi 编解码器是由 Kyutai 开发的一个语义-声学神经音频编解码器，其主要作用是将音频编码为适合语言模型处理的离散单元（mimi模型就是moshi音频llm的音频分词器），同时提供在低比特率下运行时的高质量音频表现，并且具有与实时生成兼容的低帧率。音频到文本的转换：Mimi能够将24kHz的音频波形编码成每秒12.5帧、维度为512的潜在表示形式(latent representation)。支持流式处理：该模型的所有卷积都是因果的(causal)，这意味着它可以以流的形式运行。

2025-01-24 01:00:18 1280

原创昇思打卡营第五期(MindNLP特辑）实践项目：基于预训练模型的下游任务应用上：中文成语释义与解析挑战-基于mindspore分布式推理的llama3-8B

这是一个2024年的比赛赛题，很有意思的中文成语释义与解析，考验大家构建开源模型PepLine的能力。2024 iFLYTEK A.I.开发者大赛-讯飞开放平台https://challenge.xfyun.cn/topic/info?尝试着更换了QWEN2-7B、GLM4等模型来完成，并且切换了后端推理的方式。借着这次第四课讲解的解码策略，正好把当时的几个代码都拿出来改改并分享代码思路。

2025-01-22 23:02:36 865

原创昇思打卡营第五期(MindNLP特辑）课程五：基于MindNLP的LLM应用开发实战：从零开始的RAG应用开发中：Gradio脚本、测试脚本和返回值解析

MindSpore是华为推出的开源深度学习框架，支持端边云全场景的AI应用。

2025-01-16 15:34:30 1142 1

原创昇思打卡营第五期(MindNLP特辑）课程五：基于MindNLP的LLM应用开发实战：从零开始的RAG应用开发上：实例代码上MindTinyRAG.ipynb和返回值解析

第五课是讲MindNLP的RAG应用，这也是我们在使用AIAgent和知识库中最基本的技术。作为一个增强大模型表现的技术，它在2024年经历了飞速的发展和应用，毕竟比起微调来说它成本低得多。以此为基础的知识库应用也早已普及开来，组成了AI行业突发猛进又脚踏实地的重要拼图。有趣的是，明明是一个极大推动AI落地的技术，它似乎在哪家厂商眼里都是一个已经开发完成了的技术，甚至我们在MindNLP里都找不到多少关于RAG的内容。

2025-01-16 01:11:30 1302

原创昇思打卡营第五期(MindNLP特辑）课程四：基于MindSpore NLP的LLM推理（decoding策略）-下：中文成语释义与解析挑战

这是一个2024年的比赛赛题，很有意思的中文成语释义与解析，考验大家构建开源模型PepLine的能力。2024iFLYTEKA.I.开发者大赛-讯飞开放平台尝试着更换了QWEN2-7B、GLM4等模型来完成，并且切换了后端推理的方式。借着这次第四课讲解的解码策略，正好把当时的几个代码都拿出来改改并分享代码思路。

2025-01-13 17:55:01 791

原创昇思打卡营第五期(MindNLP特辑）课程四：基于MindSpore NLP的LLM推理（decoding策略）-上：课程示例代码详解

MindNLP学习营第四课，解码策略

2025-01-13 14:12:12 829 2

原创圣杯战争的御主们，召唤你的大模型从者吧 -----10分钟用ModelScope社区QWEN2.5大模型打造你的聊天型从者

这是一篇趣味解读，用介绍动漫设定的方式介绍一篇有趣的大模型实践课——Modelscope社区的10分钟掌握微调大模型改变自我认知，定制专属自己的聊天机器人。10分钟使用提供免费GPU实验环境，对QWEN2.5大模型做个微调入门实验。

2025-01-10 19:28:03 1344

原创昇思打卡营第五期(MindNLP特辑）第三课--基于MindNLP的数据并行训练-上：课程示例代码详解

Mindnlp数据并行

2025-01-07 23:57:00 859

原创昇思打卡营第五期(MindNLP特辑）第二课--RoBERTa-Large的IA3微调

作业要求：在华为云平台上，使用MindSporeNLP组件对Roberta-Large模型进行IA3微调训练。数据集：GLUE-MRPC具体要求：使用MindSporeNLP组件加载Roberta-Large模型，设置IA3算法配置并初始化微调模型，加载数据集进行微调训练，并最终使用微调后的模型在验证集上进行评估。

2024-12-26 19:56:42 973 1

a1966565的博客