自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(160)
  • 收藏
  • 关注

原创 从零开始学LangGraph:详解State的定义、更新与管理

本文介绍了LangGraph中State的定义、更新与管理方法。State可以使用TypedDict或Pydantic模型定义,前者轻量简单,后者提供强大的运行时验证功能。State更新分为两个阶段:节点函数处理业务逻辑并返回新值,Reducer决定更新方式(如追加、覆盖等)。文章详细讲解了内置Reducer的使用方法,并展示了如何自定义Reducer实现特定更新逻辑。此外,还介绍了Overwrite机制用于强制覆盖State值的场景。这些功能为构建健壮的AI Agent提供了灵活的状态管理方案。

2025-11-22 14:06:10 763

原创 RAG是一种方法论,而不是一项具体的技术——你真的知道什么是RAG吗?

RAG(检索增强生成)是一种提升大模型生成质量的方法论,而非具体技术。它通过检索相关文档作为参考来增强模型回答的准确性,解决大模型的知识不足、更新滞后和幻觉问题。RAG包含两个核心环节:检索相关文档(可使用多种检索技术)和将文档整合到模型上下文。这种方法类似于"开卷考试",为模型提供参考答案。尽管不能完全消除幻觉,但能显著改善模型输出的可靠性。

2025-11-22 14:04:21 552

原创 深入解析GraphRAG :突破传统RAG瓶颈提升企业级 Agent数据洞察力

本文深入分析了GraphRAG技术如何突破传统RAG架构的瓶颈,提升企业级Agent的数据洞察能力。传统RAG虽能解决基础问答需求,但在处理复杂关系和全局性问题时存在局限。GraphRAG通过引入知识图谱技术,将非结构化数据转化为结构化认知,实现了从数据检索到推理洞察的质变。文章详细阐述了GraphRAG的技术原理、优势(如多跳推理能力、全局分析能力)以及面临的工程挑战(构建成本、图谱质量维护等)。最后指出未来趋势将是向量检索与知识图谱相结合的混合模式,为AI应用提供更强大的数据洞察能力。

2025-11-22 14:03:44 256

原创 简单说清:LLM 微调与从零训练的区别

摘要:本文对比了LLM微调与从零训练的差异。微调基于预训练模型进行二次训练,适用于数据有限或任务相似场景;从零训练则完全从随机参数开始,适合大量数据或特殊任务。从代码层面看,微调需要加载预训练权重、冻结部分参数并使用分层学习率,训练轮次较少;从零训练则需自定义网络结构,所有参数参与训练,使用统一学习率,训练轮次更多。当前AI大模型趋势下,理解这两种方法的差异对实际应用具有重要意义。

2025-11-22 14:02:55 583

原创 一文了解:MCP协议的优势体现在哪些方面?

微软Teams通过MCP协议实现深度集成第三方应用,该协议优势主要体现在:1)统一接口标准,实现多端兼容;2)基于JSON-RPC 2.0协议,支持跨平台复用;3)协议层解耦设计,使模型与工具可独立迭代。这些特性打破生态壁垒,推动AI生态互联互通,实现"模型可换、工具可换、业务不换"的灵活协作。

2025-11-22 14:00:49 774

原创 10分钟搞定AI服务发布:用LangChain把你的大模型变成API!

摘要:本文介绍如何使用LangChain快速将AI大模型应用发布为Web API服务。首先安装LangChain-Server模块,然后通过FastAPI定义路由并绑定模型功能。启动Uvicorn服务器后,可通过Playground界面或API工具测试服务,支持Python及其他语言的客户端调用。LangChain-Server简化了API发布流程,自动生成测试界面并支持多语言集成,是快速验证或正式部署AI服务的理想选择。

2025-11-21 14:40:51 583

原创 用 Langchain v1.0 打造 Jira 智能体:从 0 到 1 实现自动化任务管理

本文介绍了如何利用Langchain v1.0结合RAG和MCP Server构建Jira智能体,实现项目管理自动化。系统采用三层架构:RAG知识库提供上下文感知,Langchain v1.0作为决策核心,MCP Server负责Jira操作执行。文章详细说明了环境搭建步骤,包括硬件要求、软件依赖配置、向量数据库初始化和MCP Server启动方法,并展示了基于TypedDict的状态管理机制。该方案能有效减少开发者在Jira操作上的时间消耗,提升项目管理效率。

2025-11-21 14:40:01 1022 1

原创 什么是AI Agent ? AI Agent:赋予机器“生命“的三大核心能力

AI Agent(人工智能智能体)是具有自主意识的程序系统,通过感知、决策和行动三大核心能力模拟人类智能行为。它首先通过传感器等"数字感官"主动感知环境,然后将信息输入大语言模型进行推理决策,最终通过软件工具或机械装置执行行动。这种"思考-行动-观察"的闭环机制使AI Agent能够持续学习和优化,突破了传统程序的局限。从自动驾驶到智能客服,AI Agent正重塑人机协作模式,其本质不在于计算速度,而在于像生命体一样适应并影响环境的能力。随着AI技术发展,掌握大模型等

2025-11-21 14:39:09 839

原创 从无状态到有状态,LLM的“记忆”进化之路

文章摘要: 本文探讨了应用从无状态到有状态的演变过程,重点分析了HTTP协议的无状态特性及其局限性。通过餐厅点餐的类比,解释了无状态和有状态系统的核心区别:前者处理独立请求,后者能记忆历史交互。文章指出,基础大语言模型(LLM)如GPT-3/4本质是无状态的,但通过上下文窗口管理、记忆存储等技术,上层应用(如ChatGPT)可实现有状态体验。有状态LLM适用于多轮对话、个性化推荐等场景,能提供更连贯的交互体验,但需更多资源维护上下文。最后简要介绍了实现有状态LLM的几种技术方案。

2025-11-21 14:38:33 922

原创 保姆级教程:RAGFlow知识库参数全解析,让工程人AI助理更靠谱

本文是一篇针对工程行业的RAGFlow知识库参数配置指南,主要解决工程文档在AI问答中的精准检索问题。文章从原理、预处理、分块参数到知识图谱应用四个维度进行详细解析: 原理部分阐明RAGFlow三阶段工作流程(解析-分块-召回)对工程文档的重要性; 预处理强调格式转换(DOC转PDF)、命名规范和Excel清理的必要性; 核心分块参数提供6种模板选择建议及工程场景量化配置表; 进阶知识图谱功能详解其在项目管理、质量追溯等场景的关系挖掘优势。 文章配有实操截图和"抄作业"配置表,帮助工程人

2025-11-21 14:37:40 602

原创 看了很多RAG文章,还是不知道怎么下手?代码还是跑不起来?《别再空读理论了!周末两天,用这份资料包亲手搭一个可运行的RAG系统》

《RAG实战资料包:从理论到代码的全方位指南》 本文介绍了一份帮助开发者快速掌握RAG技术的实战资料包。针对许多开发者"看懂理论但不会实操"的痛点,作者整合两年实战经验,提供包含核心理论精讲、文档切分代码片段和完整RAG对话实例的完整学习资源。该资料包特别适合RAG初学者、需要快速构建原型的开发者,以及希望通过完整项目巩固学习成果的学生。资料包采用"理论+代码"的实践导向设计,并提供作者在线答疑服务,旨在帮助学习者在短时间内搭建可运行的RAG系统,实现从理论到实践的跨

2025-11-20 13:57:18 370

原创 Agent架构新方向?Claude Skills工作原理解析

Claude Skills是Anthropic推出的新型AI代理架构,通过渐进式加载机制优化大模型上下文管理。其核心创新在于将业务流程、模板和知识打包为可复用技能模块,采用三级加载架构:元数据始终加载(几十token)、说明文档触发加载(几千token)、资源按需调用。相比传统Function Calling侧重API调用,Skills更强调完整工作流程封装,支持自动意图识别和技能路由,所有执行在安全沙盒中进行。这一设计显著提升了大模型处理复杂任务的效率和可控性,为AI Agent开发提供了新思路。

2025-11-20 13:56:25 979

原创 AI助手升级实践:基于LangChain构建现代化工具与智能体(三)

摘要: 本文通过师生对话探讨了智能体开发与个人成长的关系,强调"修心"比修技术更重要。在技术层面,基于LangChain框架详细讲解了如何构建智能体系统:从环境配置到添加天气查询、时间显示和计算器三种工具,再到创建React Agent实现模型自主决策,最终展示了完整的调用流程。文章指出智能体的核心在于模型与工具的协作系统,未来重点在于工具能力的抽象与调用机制的掌握。最后结合IT行业现状,推荐了大模型学习资源作为转型方向。全文融合技术实践与人生哲理,为AI开发者提供了实用指南与成长思考。

2025-11-20 13:55:22 880

原创 LLM应用剖析: 舆情分析多智能体-微舆BettaFish

摘要 微舆是一款基于多智能体的国产舆情分析系统,整合AI爬虫集群覆盖10余个社交平台,采用5类自研Agent协同分析。系统特色包括多模态解析、Agent"圆桌讨论"机制、公私域数据整合等。核心架构通过Insight、Media、Query三个Agent并行处理用户查询,结合迭代反思优化结果,最后由论坛Agent监督协同生成报告。项目采用纯Python模块化设计,代码简洁但功能完备,实现了从数据采集到多维度分析的全流程。源码显示系统不依赖主流框架,自主实现智能体交互,虽存在冗余但运行效果良

2025-11-20 13:53:41 527

原创 AI-Agents:我有个优化RAG的想法,你写个本地知识库服务来验证

RAG”是一种技术思路,“RAG工程”依赖于特定场景进行恰到好处的实践,实际落地时经常要基于使用场景进行调整,它的参数不是一成不变,它所用的模型更是需要按场景去做恰当的选择和调整。在‘提示词准备’阶段,通过减少‘知识片段’,增加许多‘摘要片段’,从而减少提示词输入量,进而减少大模型的思考时间。我在实践过程中,不小心发现一个现象,当我询问“什么是XXX”的时候,从向量数据库中检索不到近似答案,当我带着英文询问“what is XXX”,就检索出来了。同时,也准备了两个文本素材用于知识库的构建。

2025-11-20 13:52:24 863

原创 未来Transformer 架构探索:状态空间模型

摘要 状态空间模型(SSM)作为一种新型架构,正在挑战Transformer在AI领域的地位。如Mamba和VisionMamba等模型已证明其在NLP和CV任务中的高效性。SSM采用线性计算复杂度机制,通过状态转移和输出方程处理序列数据,特别适合长文本处理。其关键创新在于利用零阶保持技术将离散信号连续化,并引入专家混合技术优化计算效率。相比Transformer,SSM在保持性能的同时显著降低了资源消耗,为长序列处理提供了更优解决方案。(143字)

2025-11-19 13:50:36 1121

原创 大语言模型与多模态融合架构介绍

随着的成功,人工智能不仅在语言处理上突飞猛进,在视觉、语音等领域也迎来了突破。如今,研究者们已经能够把“看”和“听”的能力与“语言”结合起来,形成了功能强大的和。随着研究的深入,这些架构也在不断进化。比如,引入,让模型能更灵活地在图像、语音和文字之间建立联系;利用,帮助模型更好地区分和匹配不同模态的信息;再结合,让模型通过试错不断优化表现。这些进步让多模态 AI 的能力越来越接近人类,可以看图说话、可以听懂再回答,甚至在复杂任务中展现出很强的适应性和创造力。1 视觉语言模型架构。

2025-11-19 13:49:42 636

原创 我如果从 0 开始学 Agent,只会抓住这三条线

本文总结了从零开始学习AI Agent的三条核心路径:1)深入理解模型能力边界,通过对比实验掌握模型在不同场景下的表现差异;2)专注掌握一个框架/平台,通过实际项目反复打磨流程设计能力;3)始终保持一个小型真实应用闭环,确保学习与实践结合。作者建议采取"周深挖、日实践、月复盘"的节奏,将Agent开发视为职业能力的培养而非单纯技术追逐。最终指出,真正的竞争力来自稳定的实际应用闭环,而非技术名词的堆砌。

2025-11-19 13:48:41 746

原创 Google 宣判 RAG 死刑:一个 API 干掉整条技术链

Google推出Gemini API内置文件搜索工具,宣布RAG技术链将被替代。该工具提供全托管RAG系统,简化开发流程,自动处理文件存储、分块优化、嵌入生成等环节,支持多种文件格式和向量搜索。定价模式经济实惠,仅需支付首次索引费用。早期用户反馈良好,查询效率显著提升。开发者现可通过Google AI Studio立即体验该功能。文章还提到在当前IT行业下行周期中,AI大模型是值得关注的上行趋势,并推荐了大模型学习资源。

2025-11-19 13:47:29 770

原创 揭秘AI Agent开发的底层逻辑:ReAct思想的魅力与实践(附智能客服完整案例代码)

首先,定义System Prompt,这是ReAct Agent的“大脑”。它需要包含ReAct循环的格式、可用工具的描述,以及代理的角色。system_prompt = """您是一个智能代理,使用ReAct框架(Thought-Action-Observation循环)来解决问题。始终遵循这个格式:Thought: 您的推理过程。Action: 要执行的行动(从可用工具中选择)。Action Input: 行动的具体输入。Observation: (由系统提供)行动结果。

2025-11-18 11:14:53 296

原创 记一次大模型生成与审核的问题解决思路

本文探讨了大模型在文档生成与审核过程中遇到的技术挑战。作者发现模型生成结果不稳定,导致审核环节总会发现问题,即使人工检查无误。通过多次优化提示词未果后,作者创新性地在审核前增加判断层,让模型先评估内容是否需要审核,解决了频繁误判的问题。文章指出大模型能力有限,需要结合工程化思维解决边界问题,并建议从业者关注AI大模型发展趋势,推荐了相关学习资源。案例展示了如何通过流程优化弥补大模型的技术局限性。

2025-11-18 11:14:14 289

原创 Agent 内卷升级!Agentic RL,下一代 AI Agent 的必经之路

从 AutoGPT 的惊艳亮相,到 Devin 的横空出世,再到各大厂商纷纷布局,Agent 似乎正在从一个“玩具”变成一个真正能“干活”的生产力工具。然而,随着探索的深入,我们发现简单的 Prompt Engineering 和基于静态数据集的微调(SFT)已经难以满足复杂、动态任务的需求。论文也指出了未来的巨大挑战,如 Agent 的安全性与可信赖性(如何防止 RL 训练出“钻空子”的 Agent?Agent 的发展已经从“有什么能力”的展示阶段,进入了“如何系统性地提升能力”的工程和科学阶段。

2025-11-18 11:13:41 329

原创 让大模型指哪打哪的Multi-Agent路由新范式

摘要:本文提出Multi-Agent路由新范式Tool-to-Agent Retrieval(T2A),解决大模型生态中工具/子Agent数量激增时的检索效率问题。该方法将工具与Agent统一在向量空间,通过二分图映射实现精确检索。实验在真实数据集LiveMCPBench(527工具、95任务)上验证,相比基线最高提升28%召回率。结果显示工具级信号能有效补充Agent描述遗漏的语义,且拆步检索仍适用于复杂任务。论文为规模化LLM多智能体系统提供了高效检索方案。

2025-11-18 11:12:58 833

原创 LangChain发布DeepAgents沙箱功能:安全执行代码的新突破

LangChain发布DeepAgents沙箱功能,支持在远程隔离环境中安全执行任意代码。该功能目前已集成Runloop、Daytona和Modal三家沙箱服务,为AI代理开发提供安全环境、干净配置、并行执行等优势。开发者可通过DeepAgents-CLI快速使用,支持自定义设置脚本。LangChain团队表示将继续优化沙箱API,并提醒开发者注意提示注入攻击等安全风险。这一突破性功能标志着AI代理开发工具链的进一步完善,为生产环境部署提供了更安全的解决方案。

2025-11-18 11:12:16 408

原创 我为何从LangGraph转向Agno?这5个生产级功能让我无法拒绝

摘要: 作者从LangGraph转向Agno框架,因其5大生产级优势:1) 性能提升529倍,2) 更高效的状态管理,3) 支持多Agent协作,4) 内置生产部署工具,5) 简化的RAG集成。Agno采用三层架构(Agent/Team/Workflow),支持快速构建智能系统,如网络搜索Agent、财务分析团队等。其特色包括20+模型集成、100+内置工具、自动记忆管理,以及可视化监控面板,显著提升了AI应用的开发效率和运行性能。

2025-11-17 11:18:20 756

原创 AgentEvolver:让智能体实现高效自我进化

本文介绍AgentEvolver框架,这是一套创新的智能体自我进化系统。它通过三大机制解决传统强化学习的痛点:1)自我提问自动生成训练任务,2)自我导航复用过往经验,3)自我归因提供精细化过程反馈。实验表明,该框架能显著提升智能体性能,在14B模型上任务成功率提高27.8%。其核心价值在于实现数据自动生成、经验结构化存储和细粒度反馈,使智能体能够高效自主进化。尽管依赖强大LLM且存在计算成本问题,但该框架为开发低成本、高效率的自主智能体提供了新思路。

2025-11-17 11:17:27 817

原创 LLMs、RAG、AI Agent 三个到底什么区别?

我是否已尝试过执行此任务?但是,这个大模型有一个问题,它只能知道过去已经发生的时候,在上面也提到了,它是基于过去的所有知识训练、学习出来的,所以,它的知识内容啊,是有某一个时间节点的,例如ChatGPT-5的知识时间就是2024年6月,单独问这个模型2025年的事情,它都不知道。当然,现在是有了联网搜索的能力了,但是这种其实是在大模型之外的Agent助手,通过这个外部Agent助手,可以爬取网站的数据,或者通过搜索引擎(Baidu、Bing、Google等)来获取相关数据,然后在交给大模型来总结分析。

2025-11-17 11:16:35 1007

原创 检索、分类、RAG,一个比一个狠之大语言模型Embedding的终极三件套!

大语言模型Embedding技术演进:检索、分类与RAG的三步曲 摘要:本文探讨了大语言模型(LLM)文本编码(embedding)的核心技术路线演进。从最基础的预训练模型直接使用,到针对特定任务微调编码头,再到专门为RAG问答场景优化的bi-encoder架构,三种方式各具优势:原生LLM embedding适合快速验证;对比学习微调能显著提升分类和语义相似度任务效果;而RAG专用编码则实现了知识库文档的高效检索。文章强调了文本编码作为大模型应用基础的重要性,合理选择微调策略可以用1%的算力获得10%的性

2025-11-17 11:15:51 296

原创 LinearRAG:一种免关系提取的高效 GraphRAG 图构建方法

摘要:研究提出LinearRAG框架,解决传统GraphRAG因知识图谱质量差导致的性能下降问题。通过免关系图构建(Tri-Graph)、语义桥接实体激活和两阶段精准检索等创新技术,在保持高召回率的同时降低噪声干扰。实验证明,LinearRAG在2WikiMultiHopQA等基准数据集上的检索准确率显著超越现有方法(63.7% vs 55.0%),且索引速度提升4.5-15.1倍,实现完全零API依赖,为大规模企业知识库检索提供了高效经济的新范式。

2025-11-17 11:15:09 316

原创 LLM之RAG实战| 构建一个深度思考的Agentic RAG Pipeline来解决复杂查询问题

本文提出了一种深度思考的Agentic RAG Pipeline架构,用于解决传统RAG系统在处理复杂多跳查询时的局限性。该系统通过六个关键步骤实现:计划分解、自适应检索、结果精炼、反思积累、策略决策和最终综合。文章详细介绍了从环境配置、知识库获取到多阶段检索管道构建的完整实现过程,包括使用工具感知规划器分解问题、混合检索策略、交叉编码器重排序等技术。通过引入代理的自我批评和控制流机制,系统能够动态调整研究路径,最终生成全面可靠的答案。实验表明,这种架构显著提升了处理复杂查询的能力。

2025-11-14 11:49:58 912

原创 AI大模型RAG技术之向量化的工作原理

更令人惊讶的是,即使语言不同,表达相同语义的代词 —— 如中文的“我们”与英文的“We” —— 在向量空间中的位置也高度接近。当“氟哌酸”也被输入模型时,尽管这个词在现代医学中较少使用,但如果它在训练数据中曾与“诺氟沙星”出现在相同的句子中(如:“氟哌酸,即诺氟沙星,是一种广谱抗菌药”),模型就会赋予它们高度相似的向量表示——不是因为它们字形相似,而是因为它们。例如,在句子“我吃了氟哌酸,症状很快缓解”中,模型会观察到“氟哌酸”常与“吃”“药”“症状缓解”等词共现,从而将其语义锚定在“治疗性药物”区域;

2025-11-14 11:49:05 740

原创 如何开发一个大模型Agent?

摘要 本文介绍了一个智能家居Agent的开发案例,该Agent通过MCP协议集成天气查询和窗户控制功能。MCP协议包含提示词、资源和工具三种核心原语,采用客户端-服务器架构实现AI能力集成。文章详细演示了MCP服务端的构建过程(包含天气查询和窗户控制工具),以及客户端的调用方法。最后提出将系统分为MCPClient(工具执行)和MCPAgent(用户交互)两个模块,实现工程化智能体应用开发。该系统可实现根据天气情况自动开关窗户的智能家居管理功能。

2025-11-14 11:48:16 1311

原创 使用 MCP 执行代码:让 Agent 效率提升 98.7%

摘要:MCP代码执行优化方案显著提升AI Agent效率 Anthropic提出的Model Context Protocol(MCP)为解决AI Agent连接外部系统的性能瓶颈提供创新方案。传统工具调用方式面临两大核心问题:工具定义占用过多上下文空间(数十万tokens)和中间结果重复加载导致效率低下。通过将MCP服务器呈现为代码API,实现从"AI直接调用工具"到"AI编写代码调用工具"的理念转变,带来革命性效率提升。优化后的方案使token使用率降低98.7%

2025-11-14 11:47:18 626

原创 # Anthropic 揭秘:上下文工程如何让 Agent 专注核心任务

AI上下文工程:让智能体专注核心任务的秘诀 Anthropic的研究揭示了上下文工程对AI性能的关键影响。与提示工程关注"怎么说"不同,上下文工程专注于"给什么"——通过精准筛选和管理AI可用的所有信息,包括指令、历史对话、工具数据等。研究发现,AI存在"上下文衰减"现象,信息过多会分散其注意力。解决方案包括:1)精准精简素材,避免复杂逻辑和模糊指令;2)按需即时检索信息;3)针对长时任务采用上下文压缩、结构化笔记和子智能体架构等策略。这些方法本质

2025-11-14 11:45:58 642

原创 30 个必知的 AI Agent 关键术语

AI Agent核心术语摘要 本文系统梳理了AI Agent领域的30个关键术语,涵盖智能体运行机制、架构设计和协作模式。核心概念包括:智能体(Agent)作为自主实体与环境交互,通过行动(Action)实现目标(Goal);支持智能体功能的LLMs、工具(Tools)和知识库;多智能体系统(Multi-agent system)的协调调度(Orchestration)机制;以及提升智能体能力的反思(Reflection)、规划(Planning)和记忆系统。文章还介绍了前沿技术框架如ReAct、ARQ和A

2025-11-13 17:38:27 314

原创 本地实现RAG知识库其实很简单(实践)

本文介绍了如何本地实现一个RAG(检索增强生成)知识库系统。RAG技术通过在用户输入和大模型之间增加知识检索步骤,让模型能够基于特定资料回答问题。文章详细讲解了实现流程:首先将知识库文本分块并向量化存储;然后通过检索模型召回相关内容,并用重排模型优化结果;最后将检索到的内容和用户问题拼接成prompt发送给大模型。作者以鲁迅《狂人日记》为例展示了实践效果,指出RAG相比微调模型成本更低且更灵活。该技术适用于需要基于特定领域知识回答问题的场景。

2025-11-13 17:37:36 266

原创 LLM 领域 GPU 系统工程化的思维模型

这是大多数机器学习工程师的起点,也是他们花费时间最多的地方:定义 Transformer 层、接入 PyTorch、依赖自动求导(autograd)并串联张量运算。稠密矩阵乘法(matmul)受计算资源限制,占满了 GPU 的算术逻辑单元(ALU)。注意力层受内存带宽限制,一直在等待数据传输,而非执行计算。启动了太多小型内核,导致额外开销。调试时需要用 PyTorch 或 JAX 的工具进行性能分析,并思考:“这是计算问题、内存问题,还是框架效率问题?

2025-11-13 17:36:39 1647

原创 大模型微调训练实践

大模型微调训练实践摘要 本文介绍了大模型微调训练的核心技术与实践方法。通过对比预训练(医学院基础教育)与微调(临床实习)的差异,阐述微调在领域适配、任务定制、性能提升和风格控制方面的价值。重点解析LoRA(低秩适配)技术原理,包括低秩分解数学原理、三大技术创新(梯度开关设计、缩放因子α、模块化适配器)及其商业应用价值。文章还提供了训练框架选择建议,推荐使用ms-swift框架,并详细介绍了在ModelScope平台获取免费GPU资源、安装环境和下载模型的具体步骤。最后讲解了Alpaca格式等常见微调数据格式

2025-11-13 17:35:57 401

原创 [LLM]大模型显存计算公式与优化

本文探讨了大模型训练/推理过程中GPU显存的计算与优化方法。首先分析了显存构成,包括模型参数、优化器状态、梯度值等可估算部分和临时变量等不可控部分。然后详细推导了训练场景下各部分的计算公式:模型参数(1B≈4GB)、优化器状态(Adam需12B参数)、梯度值和激活值(与序列长度、批量大小相关)。接着介绍了并行策略(3D并行、重计算等)如何降低显存消耗,给出了TP/PP/DP并行下的新计算公式。最后指出实际应用中计算值与实测值可能存在30%以上误差,主要源于未知数据的占比变化。这些公式为评估大模型所需显存和优

2025-11-13 17:35:05 220

原创 教程来了!LangChain团队DeepAgents开源库更新,多元存储提升智能体长期记忆

LangChain团队发布DeepAgents 0.2版本更新,主要新增可插拔后端功能,支持将本地文件系统、远程数据库等多种存储方案作为智能体的"虚拟文件系统"接入。新版本还包含复合后端、大型工具结果回收、对话历史总结等实用功能,使智能体应用开发更加灵活高效。文章详细介绍了DeepAgents与LangChain、LangGraph的技术栈定位关系,以及各内置后端的使用方法,助力开发者构建具备长期记忆能力的高级智能体。

2025-11-12 18:00:13 434

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除