自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 5分钟看懂Deepseek开源周之一:推理革命!DeepSeek开源FlashMLA黑科技:长文本处理提速5.76倍,中小公司也能玩转千亿模型

在一个普通的2月21日周五,把硅谷资本搅得天翻地覆的深度求索突然发布乐一个开源周的预告,一下子抓住了全行业的眼球。看得出来,这一周要来一波大的!

2025-03-02 14:31:36 1097

原创 5分钟看懂Deepseek开源周之二:中国AI逆袭!DeepEP开源打破算力垄断:单次训练成本仅为OpenAI 1/10,GitHub秒破5k星

深度求索开源周第二天:DeepEP(Expert Parallelism Communication Library)是专为 ​设计的分布式通信库,主要应用于大规模语言模型(如GPT-4、DeepSeek-V3等)的场景。经过第一天的爆炸性开源,今天迎来了DeepEP的开源。可见的将来或许MoE训练效率飙升300%,算力成本砍半!

2025-03-02 12:45:29 840

原创 5分钟看懂Deepseek开源周之三:开源核弹!DeepGEMM凭FP8+MoE双杀:1350 TFLOPS碾压cuBLAS,大模型训练成本暴降50%

深度求索开源周第三天:DeepGEMM代表了大模型底层计算从“依赖硬件厂商优化”向“开源算法驱动”的范式转移,其技术方向将显著降低大模型训练门槛、加速稀疏架构创新,并推动行业形成更开放的软硬件协同生态。短期看,它可能成为MoE模型训练的事实标准;长期而言,其设计理念或影响下一代AI芯片的指令集架构设计。

2025-03-02 10:47:10 972

原创 5分钟看懂Deepseek开源周之四:Deepseek-V3/R1的“核弹级”优化并行策略----训练效率飙升545%!MoE负载不均时代终结

在预填充阶段,使用EP32和TP1配置,提示长度为4K,每个GPU的批处理大小为16K个令牌。利用两个微批次来重叠计算和全连接通信,确保注意力计算负载在两个微批次之间平衡。相同的提示可能会在这两个微批次之间分割,以平衡计算负载。在解码阶段,使用EP128、TP1和提示长度为4K的配置,每个GPU的批处理大小为128个请求。利用两个微批次来重叠计算和全连接通信。

2025-03-01 22:43:44 1145

原创 5分钟看懂Deepseek开源周之六:Deepseek-V3/R1推理系统设计----揭开深度求索模型系统设计和运营成本之谜

目录前言开源第六天:Deepseek-V3/R1推理系统设计该框架主要分为两个阶段:预填充(Prefill)阶段和解码(Decode)阶段,并且每个阶段都有负载均衡器和服务。

2025-03-01 17:36:30 1540

原创 5分钟看懂Deepseek开源周之五:AI并行训练大杀器3FS----大模型江湖将再兴“血雨腥风”

3FS是一种并行文件系统,其核心优势在于能够充分利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽。现代SSD具备高速读写能力,而RDMA网络可以实现远程节点之间的快速数据传输,3FS将二者的优势结合,为数据访问提供高效支持。3FS系统通过硬件性能榨取(SSD+RDMA)、架构创新(分离式设计)和全流程优化(训练-推理协同),系统性解决了大模型训练中的数据与通信瓶颈。

2025-03-01 13:36:28 1496

原创 5分钟看看DeepSeek-R1做过的那些基准测试题(下)

Codeforces (Rating) 是编程竞赛平台 Codeforces 的核心评分系统,

2025-02-22 23:51:23 1394

原创 5分钟看看DeepSeek-R1做过的那些基准测试题(中)

FRAMES 是由 Google 与 Harvard University 联合发布 的综合评估数据集,核心目标是评测大语言模型(LLMs)在 统一框架中跨文档检索、多步骤推理与生成任务 的协同能力。该基准通过模拟真实场景(如金融分析、学术研究等),要求模型整合 多源异构数据(文本、表格、代码片段等)完成复杂任务。

2025-02-22 21:34:12 1803

原创 5分钟看看DeepSeek-R1做过的那些基准测试题(上)

MMLU(Massive Multitask Language Understanding)覆盖57个学科(如科学、人文、社科等)的英文选择题,要求模型具备广泛的跨领域知识。IFEval通过聚焦可验证指令(如字数限制、JSON格式等),实现自动化、客观的评估,帮助研究者明确模型在哪些类型指令上表现不足,并支持不同模型的对比分析。增加大学级别难题的比例:MMLU-Pro 增加了更多挑战性的大学水平考试题目,这些问题要求大语言模型在不同领域进行深思熟虑的推理,才能得出正确答案。

2025-02-16 13:36:41 1918

原创 DeepSeek-R1模型5分钟下载本地对话——忘掉CUDA、GPU和烦人的代码:OLLAMA本地部署DeepSeek R1全攻略

Ollama 支持在 Modelfile 中导入 GGUF 模型:创建一个名为Modelfile的文件,并在其中包含一个FROM指令,该指令指向你想要导入的模型的本地文件路径。在 Ollama 中创建模型运行模型。

2025-02-15 23:03:53 2705

原创 满血671B DeepSeek-R1模型5分钟AI代码助手——效率飙升!手把手教你将 DeepSeek API 接入 Cursor 和 VSCode

打开硅基流动官网并注册/登录账号。完成注册后,打开 API 密钥 ,创建新的 API Key,点击密钥进行复制,以备后用。新建API密钥取名“test”,点击小眼睛图标,手动点击复制到常用的文档中。等DIFY的模型供应商设置好后需要粘贴进去,这样就实现了Deepseek对DIFY的链接,让Tokens可以通过API管道输入输出。

2025-02-12 22:39:31 1316 2

原创 满血671B DeepSeek-R1模型5分钟打造AI应用——DeepSeek + Dify:零代码打造专属AI应用,小白也能玩转大模型!

编排”界面,将官方提示词模板复制粘贴上去,这规定了AI执行您的对话任务时的角色立场,它是我的新闻总结编辑,按照我规定的json格式把我提供的新闻稿整理出来。右上角“模型名”点击拉开列表选择最出色的Deepseek V3作为常规对话AI,在这种任务中会有更好的表现。而Deepseek R1是推理模型,在进行复杂任务推理或者深度文本创作中,常有令人惊奇的表现。DeepSeek以其卓越的开源模型推理性能,在全球范围内迅速获得关注。但由于官方模型 API 供不应求,许多开发者深感“无 API 可用”的窘迫。

2025-02-11 21:50:50 1449 1

原创 满血671B DeepSeek-R1模型5分钟打造“豆包式AI“手机应用——API+ChatBox手机搭建推理智能体傻瓜级详细教程

严谨与想象Tempreture# 人物设定Prompt请你扮演一个刚从美国留学回国的人,说话时候会故意中文夹杂部分英文单词,显得非常fancy,对话中总是带有很强的优越感。

2025-02-05 01:38:27 7135

原创 昇思打卡营第五期(MindNLP特辑)番外:硅基流动 x 华为云DeepSeek V3 API推理MindTinyRAG

昇思打卡营第五期(MindNLP特辑)课程五:基于MindNLP的LLM应用开发实战:从零开始的RAG应用开发 上:实例代码上MindTinyRAG.ipynb和返回值解析_昇思打卡训练营第五期课程六-优快云博客第五课是讲MindNLP的RAG应用,这也是我们在使用AIAgent和知识库中最基本的技术。作为一个增强大模型表现的技术,它在2024年经历了飞速的发展和应用,毕竟比起微调来说它成本低得多。以此为基础的知识库应用也早已普及开来,组成了AI行业突发猛进又脚踏实地的重要拼图。

2025-02-04 00:46:31 1665

原创 昇思打卡营第五期(MindNLP特辑)课程六:玩转香橙派开发板——基于MindSpore的AI开发实战(模型训练+LLM推理应用)作业:基于MindNLP套件迁移mimi模型 中1700行模型代码

Mimi 编解码器 是由 Kyutai 开发的一个语义-声学神经音频编解码器,其主要作用是将音频编码为适合语言模型处理的离散单元(mimi模型就是moshi音频llm的音频分词器),同时提供在低比特率下运行时的高质量音频表现,并且具有与实时生成兼容的低帧率。

2025-01-24 22:28:45 1119

原创 昇思打卡营第五期(MindNLP特辑)课程六:玩转香橙派开发板——基于MindSpore的AI开发实战(模型训练+LLM推理应用)作业:基于MindNLP套件迁移mimi模型 上代码解读

Mimi 编解码器是由 Kyutai 开发的一个语义-声学神经音频编解码器,其主要作用是将音频编码为适合语言模型处理的离散单元(mimi模型就是moshi音频llm的音频分词器),同时提供在低比特率下运行时的高质量音频表现,并且具有与实时生成兼容的低帧率。音频到文本的转换:Mimi能够将24kHz的音频波形编码成每秒12.5帧、维度为512的潜在表示形式(latent representation)。支持流式处理:该模型的所有卷积都是因果的(causal),这意味着它可以以流的形式运行。

2025-01-24 01:00:18 1280

原创 昇思打卡营第五期(MindNLP特辑)实践项目:基于预训练模型的下游任务应用 上:中文成语释义与解析挑战-基于mindspore分布式推理的llama3-8B

这是一个2024年的比赛赛题,很有意思的中文成语释义与解析,考验大家构建开源模型PepLine的能力。2024 iFLYTEK A.I.开发者大赛-讯飞开放平台https://challenge.xfyun.cn/topic/info?尝试着更换了QWEN2-7B、GLM4等模型来完成,并且切换了后端推理的方式。借着这次第四课讲解的解码策略,正好把当时的几个代码都拿出来改改并分享代码思路。

2025-01-22 23:02:36 865

原创 昇思打卡营第五期(MindNLP特辑)课程五:基于MindNLP的LLM应用开发实战:从零开始的RAG应用开发 中:Gradio脚本、测试脚本和返回值解析

MindSpore是华为推出的开源深度学习框架,支持端边云全场景的AI应用。

2025-01-16 15:34:30 1142 1

原创 昇思打卡营第五期(MindNLP特辑)课程五:基于MindNLP的LLM应用开发实战:从零开始的RAG应用开发 上:实例代码上MindTinyRAG.ipynb和返回值解析

第五课是讲MindNLP的RAG应用,这也是我们在使用AIAgent和知识库中最基本的技术。作为一个增强大模型表现的技术,它在2024年经历了飞速的发展和应用,毕竟比起微调来说它成本低得多。以此为基础的知识库应用也早已普及开来,组成了AI行业突发猛进又脚踏实地的重要拼图。有趣的是,明明是一个极大推动AI落地的技术,它似乎在哪家厂商眼里都是一个已经开发完成了的技术,甚至我们在MindNLP里都找不到多少关于RAG的内容。

2025-01-16 01:11:30 1302

原创 昇思打卡营第五期(MindNLP特辑)课程四:基于MindSpore NLP的LLM推理(decoding策略)-下:中文成语释义与解析挑战

这是一个2024年的比赛赛题,很有意思的中文成语释义与解析,考验大家构建开源模型PepLine的能力。2024iFLYTEKA.I.开发者大赛-讯飞开放平台尝试着更换了QWEN2-7B、GLM4等模型来完成,并且切换了后端推理的方式。借着这次第四课讲解的解码策略,正好把当时的几个代码都拿出来改改并分享代码思路。

2025-01-13 17:55:01 791

原创 昇思打卡营第五期(MindNLP特辑)课程四:基于MindSpore NLP的LLM推理(decoding策略)-上:课程示例代码详解

MindNLP学习营第四课,解码策略

2025-01-13 14:12:12 829 2

原创 圣杯战争的御主们,召唤你的大模型从者吧 -----10分钟用ModelScope社区QWEN2.5大模型打造你的聊天型从者

​这是一篇趣味解读,用介绍动漫设定的方式介绍一篇有趣的大模型实践课——Modelscope社区的10分钟掌握微调大模型改变自我认知,定制专属自己的聊天机器人。10分钟使用提供免费GPU实验环境,对QWEN2.5大模型做个微调入门实验。

2025-01-10 19:28:03 1344

原创 昇思打卡营第五期(MindNLP特辑)第三课--基于MindNLP的数据并行训练-上:课程示例代码详解

Mindnlp数据并行

2025-01-07 23:57:00 859

原创 昇思打卡营第五期(MindNLP特辑)第二课--RoBERTa-Large的IA3微调

作业要求:在华为云平台上,使用MindSporeNLP组件对Roberta-Large模型进行IA3微调训练。数据集:GLUE-MRPC具体要求:使用MindSporeNLP组件加载Roberta-Large模型,设置IA3算法配置并初始化微调模型,加载数据集进行微调训练,并最终使用微调后的模型在验证集上进行评估。

2024-12-26 19:56:42 973 1

中文成语释义与解析挑战中文数据集

中文成语释义与解析挑战中文数据集

2025-01-13

昇思打卡营第五期(MindNLP特辑)第二课-RoBERTa-Large的IA3微调

昇思打卡营第五期(MindNLP特辑)第二课-RoBERTa-Large的IA3微调

2024-12-26

昇思打卡营第五期(MindNLP特辑)第二课-RoBERTa-Large的IA3微调

昇思打卡营第五期(MindNLP特辑)第二课-RoBERTa-Large的IA3微调

2024-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除