- 博客(291)
- 收藏
- 关注
原创 从原理到落地!LoRA微调全解析:用百川智能实战,让大模型轻量化适配成本直降90%
文章摘要: LoRA技术通过低秩矩阵分解(如r=8时参数量降至0.39%),实现大模型轻量化微调,显著降低算力需求(单张RTX 3090可运行Baichuan2-7B)。其核心优势包括:1)仅更新局部权重,保留预训练通用知识;2)结合知识蒸馏避免任务过拟合。实战部分以百川Baichuan2为例,详细演示了从环境配置、数据格式(JSON多轮对话)到LoRA参数注入(peft库)的全流程,关键参数如秩r、学习率(2e-5)需按任务调整。该技术使垂直领域适配成本降低90%,成为中小团队落地AI的高效方案。
2025-10-11 19:41:37
1589
原创 DeepSeek vs ChatGPT 技术架构、成本与场景全解析
摘要: 文章对比分析了2025年两大AI模型DeepSeek-V3.1-Terminus与GPT-5的核心差异。技术架构上,DeepSeek采用混合专家(MoE)稀疏激活设计,垂直领域精度高且成本低;ChatGPT则以统一推理架构实现通用能力优势。功能特性方面,DeepSeek擅长专业推理与边缘计算,医疗影像分析准确率94%;ChatGPT在图文关联、长对话连贯性上更优。开发成本差异显著:DeepSeek开源轻量化,年成本仅$1.2万(10万次/日查询),硬件适配广泛;ChatGPT依赖云端,年成本$3.8
2025-10-11 19:10:29
2066
原创 颠覆认知!DeepSeek-R1实战ReAct Agent:推理王者为何折戟智能体战场?
本文通过对比实验揭示了推理型大模型在AI Agent任务中的局限性。实验采用ReAct架构,测试6款主流模型在基础、中级、高级任务中的表现。结果显示,通用大模型(如GPT-4o、DeepSeek-V3)表现稳定,而推理型模型(如DeepSeek-R1)在复杂任务中频繁出现逻辑突破、幻觉生成等问题。分析表明,推理模型与Agent所需的动态交互能力存在本质差异,前者擅长深度思考但缺乏多轮交互和结构化输出能力。文章建议采用"通用模型控场+推理模型攻坚"的混合架构,并给出优化提示工程、增加校验机
2025-10-10 18:28:12
570
原创 2025 AI Agent行业深度拆解:DeepSeek降本3%破推理壁垒,Manus开通用闭环,从技术到商业的全景指南
摘要: 2025年,AI Agent(智能体)在DeepSeek-R1开源模型(推理成本降至OpenAI的3%)和通用智能体Manus(实现任务自主闭环)的推动下,从实验室迈向产业应用。AI Agent的核心是PPA架构(感知-规划-行动),具备自主决策与执行能力,区别于传统大模型的被动响应。技术突破方面,DeepSeek-R1通过强化学习提升推理能力并降低成本,Manus验证了多智能体协同的工程可行性。行业现状显示,B端应用以效率提升为主(如金融、医疗),C端场景碎片化尚未出现爆款。市场呈现高速增长,科技
2025-10-10 18:22:59
1107
原创 Agent开发必看!DeepSeek-V3 Function Calling从原理到落地:教你让大模型“自己调用工具查天气、跑数据”
Function Calling 是大模型进化为 Agent 的 “核心中介技术”,而 DeepSeek-V3 为这一技术提供了便捷的实战载体。其核心逻辑是 “两次模型交互 + 一次工具执行”:第一次让模型判断 “要不要调用工具、调用哪个”,第二次让模型分析 “工具结果” 并生成答案。对开发者而言,从 “理解原理” 到 “实战落地”,关键在于:明确函数描述格式、掌握工具调用流程、做好 API 安全防护。一旦掌握,不仅能快速搭建天气查询这类简单 Agent,还能扩展到更复杂的场景(如多工具协同、批量数据处理
2025-10-09 18:48:14
875
原创 ChatGPT Agent深度总结:从“对话工具”到“超级助理”的AI革命
ChatGPT Agent 的崛起,不是 “取代人类”,而是重新定义 “人机分工”:AI 负责 “战术执行”(重复、逻辑化的工作),人类负责 “战略决策”(判断方向、创造创意、管理 AI)。对每个人来说,真正的挑战不是 “怕 AI 抢工作”,而是 “如何培养 AI 替代不了的能力”—— 比如 “判断‘做什么’比‘怎么做’更重要的远见”“提出独特想法的创造力”“审查 AI 结果的批判性思维”“管理 AI 团队的领导力”。这场 AI 革命的核心,是让人类从 “繁琐的操作中解放出来”,去做更有价值的事。而现在
2025-10-09 18:43:12
930
原创 DeepSeek双攻略:零代码搭智能体+系统化建个人知识库,从入门到落地
《DeepSeek双攻略:零代码搭智能体+系统化建个人知识库》摘要: DeepSeek凭借低代码、模块化设计和多模态兼容性,成为构建智能体与知识库的高效工具。文章提供从零基础到进阶的全流程方案:零代码开发者可通过Python环境配置、API调用快速实现基础问答(10行代码)和检索增强生成(RAG);高阶用户可设计“感知-决策-行动”闭环架构,结合动态更新、语义检索和多模态存储打造智能知识系统。案例显示,企业客服响应效率提升3倍,教育辅导准确率达91%。通过T型知识定位和AI辅助采集,实现自动化、结构化的知识
2025-10-08 18:08:43
956
原创 DeepSeek智能体实战:从架构设计到落地运维,7×24小时自动化任务系统搭建全指南
摘要: DeepSeek智能体通过时序控制、任务完整性保障和资源优化配置三大能力,突破传统AI模型被动响应的局限,实现7×24小时自动化任务处理。其架构设计聚焦任务解析引擎、执行流程编排(DAG管理)和状态管理系统(Redis+MySQL双存储),关键技术包括改进型Cron调度、三级异常处理及四维性能优化。部署采用Kubernetes容器化,配合Prometheus监控和PDCA持续迭代,并强调数据安全五层防护与法规合规。在金融、制造、医疗等领域应用效果显著,未来可向多智能体协同生态演进,提升复杂任务处理效
2025-10-08 18:03:03
927
原创 DeepSeek首登Nature封面:600万美金搞定大模型,揭秘“慢思考“训练秘籍,开源全流程打破行业黑箱
摘要: DeepSeek大模型以“自我帮助”为核心登上《Nature》封面,成为首个经同行评审的大模型研究。团队公开全流程细节,仅用600万美元(行业预期的1/10)实现突破,证明AI技术可民主化。其创新包括:1. 拟人化训练,通过“名师带徒”到“自我突破”四步培养模型推理能力;2. 精准奖励机制,分阶段设计规则避免模型“偏科”;3. “慢思考”能力,模型输出中推理词汇显著增加,复杂任务性能提升40%;4. 安全防护体系,分类评估风险并测试越狱攻击。全开源策略(权重、数据、流程)打破行业黑箱,推动AI透明化
2025-10-06 20:52:38
930
原创 从0到1微调DeepSeek大模型,LoRA+4位量化让24GB显卡也能玩转
本文介绍了如何利用LoRA技术和4位量化方法在24GB显存的普通GPU上微调DeepSeek大模型。DeepSeek凭借高效的MLA架构和低显存占用优势,成为开发者微调的热门选择。文章系统讲解了从理论原理到实战操作的全流程,包括交叉熵损失函数、数据子集策略等核心概念,重点解析了LoRA技术如何通过低秩矩阵分解将可训练参数压缩至1%以下,以及4位量化如何将内存需求降至1/8。通过IMDB情感分类任务的代码示例,展示了环境搭建、模型加载、数据处理和训练参数配置等具体操作步骤,帮助开发者在有限硬件条件下实现大模型
2025-10-06 20:47:59
3202
原创 MoE架构封神!DeepSeek大模型技术全解析:多模态Top3+代码通过率81.5%,开发者落地指南附代码
摘要: DeepSeek基于混合专家(MoE)架构突破大模型性能与效率瓶颈,以2048个专家子网络的动态分工实现“万亿参数能力、百亿级消耗”。其技术亮点包括动态稀疏注意力(128K上下文窗口)、分层量化策略及自适应计算机制,训练成本较稠密模型降低80%。在多模态理解(MMBench Top3)和代码生成(HumanEval 81.5%通过率)领域表现卓越,支持20+编程语言。企业级应用如智能客服(效率提升35%)和金融风控(F1-score 0.91)已验证商业价值,并提供轻量化SDK与LoRA微调工具,助
2025-10-05 22:27:10
1294
原创 零代码到商用落地!DeepSeek-V3+Dify实战:30分钟搭企业级AI Agent,成本低至0.03元/千tokens
摘要 本文介绍了基于DeepSeek-V3大模型和Dify框架快速搭建企业级AI Agent的完整方案。文章从技术选型、模型集成、框架部署、商用场景开发到运维监控,提供了全流程指导。该方案具有低代码开发(开发门槛降低60%)、高性价比(成本低至0.03元/千tokens)和商用合规等特点,适用于智能客服、数据分析和内容创作等场景。通过流式响应、上下文管理等高级功能优化,以及缓存策略、异步处理等性能调优手段,确保系统稳定高效运行。文章还提供了详细的成本优化策略和故障排查指南,帮助企业实现AI Agent从&q
2025-10-05 22:21:31
787
原创 0代码搞定ChatBI!Doris+DeepSeek+Dify保姆级搭建教程:从环境到可视化全流程,附可复用DSL(小白也能上手)
本文介绍了如何用Doris+DeepSeek+Dify搭建零代码ChatBI系统,实现企业级对话式数据分析。方案通过Doris作为高性能实时数据仓库,DeepSeek大模型进行自然语言转SQL处理,Dify低代码平台完成流程编排,形成完整闭环。文章详细解析了三个组件的协作逻辑和优势,并提供了从环境部署到可视化输出的6步实操指南,特别强调了Text2SQL节点的关键配置和常见避坑点。该方案以低门槛、高落地性为特点,让技术小白也能快速搭建ChatBI系统,适用于中小企业数字化转型场景。
2025-10-03 22:00:36
886
原创 从“报表堆里扒数据”到“大模型对话秒出洞察”!大模型重塑BI:ChatBI如何破解中小企业“数据用不动”难题?
文章摘要: 大模型技术正推动商业智能(BI)进入“ChatBI”时代,通过自然语言交互破解中小企业“数据用不动”难题。传统BI依赖技术团队开发静态报表,自助BI仍降低门槛但仍需业务人员掌握数仓逻辑,而基于大模型的智能BI 实现“对话即分析”:用户通过自然语言查询数据(如“华东有不少于5家客户说华东区业绩TOP5员工”),系统自动生成SQL并+优化建议,并结合RAG技术智能匹配可视化模板。东尔科技采用Text2DSL方案(非直接底层SQL),通过预设业务指标提升响应速度与准确性,尤其适合数据分散、技术能力弱的
2025-10-03 21:54:56
581
原创 从单模态到多模态王者!DeepSeek技术演进全路线拆解:MoE架构、MLA黑科技、Janus-Pro破局,每一步都踩中行业痛点
摘要: DeepSeek通过三大技术主线(LLM、VL、Janus系列)实现多模态突破。LLM系列从初代数据优化到V3的671B参数+多令牌预测,以MoE和MLA提升效率;VL系列通过混合编码器和动态瓦片技术解决高分辨率图像处理难题;Janus系列采用双视觉编码器解耦理解与生成任务,实现多模态统一。其技术演进精准解决行业痛点,如训练成本高、推理效率低等,推动国产大模型从跟跑到领跑的跃迁。(150字)
2025-10-01 22:38:46
1387
原创 硬刚制裁、反超范式!DeepSeek的中国式创新:不堆算力不圈钱,凭什么让硅谷紧张?
摘要: DeepSeek以“中国式创新”打破AI大模型的算力内卷,通过强化学习裸训、顿悟现象可视化、模型蒸馏优化及PTX编程语言等“巧劲”,在芯片制裁下实现技术突破。其“大道求简、平衡求熵”的思维,摒弃堆参数与商业变现,专注算法优化与开源生态生态共建,为中小团队提供了“低资源高效益”的创新样本。这一路径不仅挑战硅谷的算力霸权,更重塑了中国AI创新的全球话语权,展现技术韧性下的本土智慧。(149字)
2025-10-01 22:32:32
823
原创 狂降75%!大模型DeepSeek-V3.2 API杀疯了:性能零衰减的秘密,藏在DSA这两大“黑科技”里
摘要: DeepSeek-V3.2-Exp大模型通过自研的DSA稀疏注意力机制(含“闪电索引器”和“稀疏MLA”两大核心技术),将长文本处理的计算复杂度从O(L²)降至O(Lk),实现效率飞跃。其“先筛选后计算”的协同工作流程(投影-评分-选择-计算)在保证性能零衰减的同时,使API调用成本狂降75%,尤其擅长法律、医疗等长文本场景。该技术突破标志着国产大模型在自研创新与商业普惠上的平衡,为行业提供高效低成本解决方案。 (字数:149)
2025-10-01 22:18:55
748
原创 炸场!DeepSeek-V3.2-Exp横空出世:成本砍半+长文本飞起来,国产大模型再破技术死结
摘要: DeepSeek推出实验性版本V3.2-Exp,突破性采用自主研发的DSA稀疏注意力技术,将长文本处理效率提升3倍,同时API成本降低50%以上。DSA通过“闪电索引器”“密集预热”“稀疏训练”三步实现精准计算,性能与密集注意力模型持平。国产GPU厂商同步适配,形成硬软协同生态。此次升级不仅解决长文本高成本、低效率的行业痛点,更标志着国产大模型从技术跟跑到原创领跑的关键跨越,推动医疗、法律等领域AI应用规模化落地。
2025-10-01 22:13:36
1100
原创 智能问数告别SQL依赖!9款NLP2SQL神器,让业务人员直接对话数据,企业ChatBI落地不用愁
摘要: NL2SQL工具通过将自然语言转换为SQL查询,帮助企业降低数据使用门槛,实现业务人员与数据的直接对话。本文介绍了9款主流工具,包括支持多数据库和可视化的Chat2DB、轻量级的SQL Chat、灵活的Vanna框架、企业级API引擎Dataherald,以及生成式BI工具WrenAI等。这些工具覆盖不同场景需求,从快速取数到深度定制,从云端部署到本地隐私保护。通过对比核心功能、适用场景和部署方式,企业可根据自身需求选择合适工具,推动ChatBI落地,提升数据驱动决策效率。
2025-09-30 18:49:24
744
原创 ChatBI告别“NL2SQL依赖症”!从准确率50%到90%,3大技术路线+4个企业案例拆解核心玩法
摘要: ChatBI通过自然语言交互实现数据民主化,其核心是“语义理解+数据执行+知识沉淀”的全链路能力,而非单一的NL2SQL技术。行业采用三大技术路线提升准确率:专有知识库(提升30%)、指标标签语义层(准确率85%)、JSON中间层(多轮对话提升25%)。数据执行方案包括NL2SQL、NL2API等,需结合场景选择。企业落地需解决四大痛点:跨表查询准确率低(引入拓扑图)、模糊查询(用户干预机制)、响应慢(预计算缓存)、多轮对话(上下文池)。Spring AI Alibaba提供轻量级集成方案,助力企业
2025-09-30 18:40:18
1025
原创 DeepSeek-R1大模型微调从0到1落地指南:24小时搞定数据+训练+部署
摘要: 本文节选自《GPT多模态大模型与AI Agent智能体》,介绍DeepSeek-R1大模型微调落地的全流程指南。重点涵盖五大模块:环境准备(硬件需求、虚拟环境搭建)、数据工程(JSONL格式规范、预处理与质量检查)、微调实现(全参数/LoRA模式选择、训练参数配置)、评估部署及问题排查。通过标准化流程,开发者可在24小时内完成微调,提升垂直领域任务准确率15%-30%。文中提供已验证的代码片段与参数建议,帮助规避显存不足、数据质量差等常见问题,实现高效模型定制化。
2025-09-29 18:27:56
2882
原创 DeepSeek大模型训练微调实战指南:从数据清洗到部署落地降本90%,3大行业案例+核心代码直接用
摘要: DeepSeek微调技术通过预训练模型适配垂直场景,显著降低90%计算资源消耗,保留模型泛化能力。核心流程包括数据清洗(遵循3C原则)、模型选择(全参数/LoRA/Prefix-Tuning)和训练优化(动态学习率/梯度累积)。针对灾难性遗忘和长文本处理,采用混合训练与滑动窗口注意力解决。部署阶段通过量化和Triton动态批处理提升效率。医疗、电商等案例验证其价值,未来将向轻量化、自动化发展,进一步降低技术门槛。 (字数:149)
2025-09-29 18:22:01
1126
原创 AI Agent智能体如何突破“听懂却做不好”困局?多模态技术打通全链路
AI Agent 要实现从 “理解意图” 到 “精准执行” 的跨越,核心突破口在于多模态技术。它将自然语言理解(NLP)、视觉识别(OCR / 目标检测)、界面感知(GUI 交互)深度融合,解决了单模态系统 “看不懂界面、摸不准操作、扛不住变化” 的痛点,最终让 “一句话触发全流程自动化” 成为现实。本文结合九科信息 bit-Agent 的实践案例,从技术原理、核心模块、融合架构到落地应用,全面拆解多模态技术如何支撑 AI Agent“听懂、看清、会做” 的三位一体能力。
2025-09-28 20:22:37
1089
原创 万字拆解LLM-based AI Agent智能体:从技术底层到落地实战,这才是通往AGI的关键路径
文章摘要: 本文探讨了基于大语言模型(LLM)的AI Agent智能体的技术架构与落地实践,指出其是通往通用人工智能(AGI)的关键路径。AI Agent通过“大模型+插件+执行流程”实现自主决策,具备感知、推理与行动能力。技术演进经历了符号逻辑、响应式、强化学习到LLM驱动的四个阶段,LLM因其自主性、反应性、主动性及社会能力成为Agent核心。构建上,AI Agent分为大脑(决策)、感知(多模态输入)、行动(工具调用与具身交互)三大模块。实践场景包括单个Agent任务执行、多Agent协作及人机交互,
2025-09-28 20:15:41
1024
原创 告别AI“幻觉”!大模型RAG(检索增强生成)深度拆解:从原理到落地,让AI回答精准度翻倍
文章摘要: RAG(检索增强生成)技术通过结合外部知识检索与大模型生成,有效解决AI大模型的“知识过时”“专业不足”和“幻觉”问题。其核心流程分为三步:1)数据准备,构建高质量、结构化的知识库;2)信息检索,利用向量匹配精准定位相关材料;3)答案生成,通过优化提示工程确保回答基于检索内容。四大优化策略(知识源筛选、检索算法调优、提示工程改进、多轮对话设计)可进一步提升RAG的准确性与实用性,使其成为企业级AI落地的关键技术。
2025-09-27 19:53:21
819
原创 3000字读懂AI核心技术:从大模型微调、RAG进化到智能体设计,一文掌握行业前沿
摘要: 本文系统解析了AI核心技术的最新进展,涵盖大模型架构、微调技术、RAG演进与智能体设计。Transformer与MoE架构协同支撑大模型高效扩容,LoRA等5种微调技术实现轻量化适配;Agentic RAG突破传统检索-生成管道的局限,通过动态决策提升准确性;智能体设计模式(如反思模式、工具增强)赋予AI自主任务处理能力。文章以技术原理结合应用场景,为开发者提供从模型优化到系统设计的完整知识框架。
2025-09-27 19:17:40
802
原创 GitHub 10.3k星炸场!JoyAgent-JDGenie:业界首个开源高完成度轻量化通用多智能体产品,开箱即用破局AI落地最后一公里
京东开源JoyAgent-JDGenie,以10.3k星成绩成为业界首个高完成度轻量化通用多智能体产品。该产品突破"框架依赖"局限,提供端到端完整解决方案,支持开箱即用的多智能体交互、结构化/非结构化知识处理,并在GAIA榜单跻身全球第一梯队(准确率75.15%)。其特色包括:轻量化架构支持独立部署、DAG高并发引擎、可插拔设计(支持自定义工具扩展)、全链路流式输出等。提供Docker和手动两种部署方式,5分钟即可启动企业级智能体应用。目前已有30余名开发者参与共建,为AI落地最后一公里
2025-09-26 18:29:37
903
原创 GitHub万星爆火!京东开源 “AI 全家桶”,行业首个 100% 开源企业级智能体 JoyAgent 领衔,智能体生态战开打
京东开源"AI全家桶",推出行业首个100%开源企业级智能体平台JoyAgent 3.0,打响智能体生态争夺战。此次开源覆盖智能体平台、多智能体协作框架OxyGent和医疗大模型京医千询2.0,均源于京东真实业务场景锤炼。技术亮点包括自然语言数据查询、模块化智能体开发、医疗可信推理等,已在电商、医疗、金融等领域落地应用。京东计划通过开源构建AI生态标准,未来三年打造万亿规模人工智能生态。目前JoyAgent在GitHub星标已突破10.1k,开源行动显著降低AI应用门槛,为开发者提供企业
2025-09-26 18:15:32
1159
原创 2025 AI Agent元年:撬动万亿市场,重构企业生产力的核心变量
摘要: 2025年被视为“AI Agent元年”,AI Agent作为生成式AI的高级形态,通过自主调用工具执行复杂任务,重构企业生产力。其技术架构整合大模型、工具及基础设施,具备自主性、规划与记忆能力等核心特征,已在办公自动化、客户服务、工业智能化、医疗辅助四大场景落地。全球市场高速增长,中国预计2027年规模超5000亿元。竞争格局呈现“上游集中、下游分散”,国际巨头领跑底层技术,国内厂商深耕场景应用。未来趋势将向多智能体协作生态演进,政策推动下,AI Agent正成为撬动万亿市场的核心变量,重塑人机协
2025-09-25 18:27:06
1707
原创 大模型驱动下 AI Agent 的技术架构与 AGI 演进研究
文章摘要 AI Agent(智能体)正成为大模型时代的下一个“革命级主角”,通过自主性、规划能力和工具调用实现从“被动响应”到“主动执行”的跨越。其核心架构由三大组件构成:规划(任务拆解与反思优化)、记忆(短期与长期信息存储)、工具使用(API调用扩展能力边界)。GPT-4的突破进一步推动Agent落地,如科研助手ChemCrow和多Agent社会模拟“AI小镇”。然而,AI Agent仍面临上下文限制、规划鲁棒性等技术挑战,需在可靠性、成本与伦理方面持续优化,未来或成为通向AGI的关键路径。 (字数:15
2025-09-25 18:21:44
903
原创 深度拆解 DeepSeek-V3/R1 推理架构!从核心组件到工作流,揭秘高效推理的底层逻辑
本文深度解析了DeepSeek-V3/R1推理系统的架构设计与工作流程。该系统通过API服务器、负载均衡器(预填充/解码/专家并行)、预填充服务、解码服务及外部键值缓存等核心组件的协同运作,实现了高效推理。重点阐述了负载均衡器如何根据实例负载动态分配请求,以及专家并行机制如何优化GPU计算资源利用率。文章还详细介绍了从请求接收、负载均衡、专家分配到结果缓存的全流程,展现了系统在吞吐量、响应速度和可扩展性方面的技术优势。该内容节选自陈敬雷编著的《GPT多模态大模型与AI Agent智能体》一书。
2025-09-24 21:27:08
797
原创 DeepSeek 知识蒸馏:让小模型拥有大模型 “超能力”,AI 落地成本直降 90% 的核心秘密
对于经过蒸馏处理后的模型,在后续操作中仅采用了监督微调的方式,并未将强化学习阶段纳入其中。从以往的经验和相关研究可以知晓,若加入强化学习,能够在很大程度上进一步提升模型的性能。但此次研究的核心目的在于重点展示蒸馏技术本身的有效性,因此将强化学习阶段的深入探索留给更广泛的研究群体,以便众多研究人员能从不同视角深入挖掘与拓展,从而有力地推动整个领域的发展。通过这样的安排,清晰直观地呈现出蒸馏技术在赋予小模型推理能力方面的显著成效,为后续更为深入的研究与应用筑牢根基。
2025-09-24 18:33:13
973
原创 基于vLLM本地部署企业级DeepSeek大模型
本文介绍了基于vLLM本地部署企业级DeepSeek大模型的方法。vLLM是一款专为大型语言模型设计的高效推理工具库,具有高性能推理能力、灵活兼容性和便捷开发体验。其技术架构包括调度器、模型执行器、内存管理器等核心组件,支持多种并行计算策略和先进的内存管理机制。文章详细说明了vLLM的安装步骤,包括系统要求、虚拟环境创建、CUDA配置等,并提供了验证安装成功的方法。通过vLLM部署DeepSeek模型,企业可以获得强大的AI能力,提升数字化转型中的竞争力。
2025-09-23 18:06:46
1167
原创 Ollama本地部署DeepSeek大模型
本文介绍了如何利用Ollama开源框架在Windows和Linux平台上本地部署DeepSeek大模型。Ollama简化了大型语言模型的本地部署与管理,支持多种模型格式和硬件加速。具体步骤包括:下载安装Ollama,配置环境变量,选择合适的DeepSeek模型版本进行部署,并通过Python代码调用模型接口。文章还提供了Linux平台的一键安装命令和Windows的详细安装流程,帮助开发者高效利用DeepSeek的自然语言处理能力。更多技术细节可参考配套教材和视频课程。
2025-09-23 18:02:55
1617
原创 DeepSeek-R1 靠冷启动强化学习 “开挂”,推理 + 通用能力全面飙升,还解决了语言混杂难题!
DeepSeek-R1-Zero取得的成果令人看到了希望,这也引发了两个很自然的问题。其一,通过引入少量高质量数据作为冷启动手段,能不能进一步提升推理性能,或者加快模型收敛的速度?其二,要怎样训练出一个对用户友好的模型,使其不但能生成清晰、连贯的思维链,还具备强大的通用能力?为解决这些问题,DeepSeek团队专门设计了一套训练DeepSeek-R1的流程,该流程涵盖四个阶段,具体内容如下。
2025-09-22 18:27:16
1307
原创 DeepSeek-R1-Zero 靠无监督强化学习 “封神”,推理性能狂飙还自带 “顿悟时刻”!
为了降低强化学习的训练成本,DeepSeek-R1也采用了GRPO这一方法。与传统的强化学习方法不同,GRPO摒弃了那种通常与策略模型大小相同的价值评估模型。而是采用了一种全新的思路,即从组得分中估计基线。具体的操作过程是这样的:对于每一个问题q,GRPO会从旧策略中采样出一组输出。然后,通过对特定目标的最大化来实现对策略模型的优化。这种优化方式能够使模型在不依赖大量监督数据的情况下,依然能够有效地学习和改进,从而提升自身的推理能力。在DeepSeek-R1-Zero的训练过程中
2025-09-22 18:22:43
872
原创 揭秘 DeepSeek强化学习!双奖励模型 + GRPO 技术,如何让模型性能飙升?
在深度学习领域,强化学习作为提升模型性能和适应性的关键技术手段,对于DeepSeek-V3模型的优化起着至关重要的作用。为了使模型能够在复杂多变的任务中展现出卓越的表现,在强化学习过程中精心设计并采用了一系列有效的策略和方法。其中,奖励模型的构建以及组相对策略优化技术的应用,是提升模型学习效果和性能的重要组成部分。下面将详细介绍DeepSeek-V3在强化学习中所采用的奖励模型和组相对策略优化的具体内容。
2025-09-21 21:56:26
956
原创 DeepSeek后训练:监督微调策略,开启模型优化新时代
《DeepSeek-V3后训练:监督微调策略优化》介绍了DeepSeek-V3模型在后训练阶段的关键优化技术。文章详细阐述了监督微调(SFT)策略,包括针对推理数据(数学、代码等)和非推理数据(创意写作等)的不同处理方法。通过结合专家模型生成数据、强化学习优化以及人工标注验证,模型在150万实例数据集上实现了性能提升。两轮微调采用余弦退火学习率调度和样本掩码策略,有效提升了模型任务表现。本文节选自陈敬雷新书《GPT多模态大模型与AI Agent智能体》,配套视频课程可进一步学习相关技术。
2025-09-21 21:53:33
612
原创 DeepSeek大模型MLA多头潜在注意力机制的创新设计
DeepSeek-V3大模型通过创新的多头潜在注意力机制(MLA)和专家混合架构(DeepSeekMoE)实现了性能突破。MLA采用低秩联合压缩技术,显著减少键值缓存需求,提升推理效率;DeepSeekMoE通过细粒度专家划分和无辅助损失负载均衡策略优化计算资源分配。模型还引入序列级辅助损失和受限路由机制,在保持负载均衡的同时降低训练成本。这些创新使DeepSeek-V3在长序列处理、内存利用和计算效率方面展现显著优势,为大语言模型发展提供了新思路。
2025-09-20 20:26:46
838
原创 DeepSeek大模型混合专家模型,DeepSeekMoE 重构 MoE 训练逻辑
DeepSeek大模型通过创新技术重构MoE训练逻辑,提出动态偏差项和无Token丢弃策略。其核心技术包括DeepSeek-R1强化推理能力、原生稀疏注意力(NSA)优化长文本处理,以及DeepSeek-V3架构整合MLA和DeepSeekMoE。其中,DeepSeekMoE采用细粒度专家划分和共享专家机制,通过动态调整偏差项实现无辅助损失负载均衡,配合序列级辅助损失和节点限制路由,有效提升训练效率。模型在15.8万亿Token上完成高效训练,并在推理任务中表现出色,应用场景覆盖智能客服、代码生成等多个领域
2025-09-20 20:21:12
1355
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅