(保姆级教程)AI下半场,手把手带你从0到1打造一个Agent!全景解析,拿来就用!


如果移动互联网时代,超级APP主宰了人们的线上活动;那AI大模型时代,超级Agent将可能成为下一代智能生活的入口。

11月17日,阿里通义APP更名为千问APP,对标ChatGPT,项目全力进军C端市场。阿里计划将“千问”接入全场景生态,未来将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问APP,其核心目标是构建能自主理解需求、规划任务、调用资源的AI智能体。

11月18日,蚂蚁集团推出全模态通用AI助手“灵光”,具备对话、图像识别、应用生成等交互能力,并通过“闪应用”功能实现用户需求驱动的应用快速生成。灵光构建了多智能体协作的agentic架构,能够动态调度图像、3D、动画等专用agent与工具实时协作。

而11 月 19 日,人工智能领域迎来了又一个历史性时刻。谷歌 DeepMind 正式公布了最新一代旗舰模型—Gemini 3。其核心突破点在于从“对话者”向“执行者”和“问题主动解决者”转变,标志着 AI 从“生成内容”向“解决复杂问题”迈出了关键一步。

种种事件,标志着行业从生成式AI正式迈入“代理智能 Agentic Intelligence”时代。

今天我们再次来研究 Agent智能体。

下文从:① 智能体Agent 基础知识复盘;② 市场空间&现状;③ 产业链全图谱;④ 相关标的;等四大维度来解析。

一、智能体Agent 基础知识复盘

1、定义

AI Agent(智能体)是一种具备环境感知、自主决策与行动执行能力的人工智能系统。

Agent是一个系统,其核心能力架构包含四个关键维度:

① 感知能力(Perception)–解析、 理解环境信息与用户输入、进行知识推理、生成文本;

② 规划能力(Planning)–制定目标导向的任务策路;

③行动能力(Action/ToolUse)–调用工具或API执行操作;

④ 记忆能力(Memory)–存储并关联历史交互与知识。

一言以蔽之:Agent =大模型+规划能力+记忆能力+行动能力!

2、Agent与 Chatbot区别:

Chatbot是人类完成绝大部分工作,类似于向AI询问意见,了解信息,AI提供信息和建议,但不直接处理工作;而Agent能独立处理工作。

Agent与Copilot 区别在于“自主规划” 的能力:Copilot 的模式需要人的指挥;而Agent则是直接面对目标任务,具有自主记忆、推理、规划和执行的全自动能力。Copilot 是“副驾驶”,只是提供建议而非决策,而Al Agent 是“主驾驶”需要真正做出决策并开展行动。

大模型是Al Agent的核心驱动力与智能基础,Agent是大模型应用的最高形态,赋予A高度自主性,使其能够独立分解任务、规划步骤并调用工具完成目标。Agent模式下AI不仅是“助手”,更是具备闭环执行能力的“智能代理人”。

3、Agent 三大核心能力

不是所有AI模型都是Agent,关键在于"工具调用能力”,即主动调用外部工具以拓展能力边界、达成复杂目标的能力,实现了从“解答问题”到“解决问题”的跨越。

一个合格的Al Agent ,需具备三个核心能力:

1)独立思考和规划: Al Agent 不需要人干涉,独立思考,将复杂任务分解成一系列子步骤,能够根据给定任务目标和约束条件,进行任务规划和问题拆解,形成执行步骤(即工作流);

(2)自主使用工具来执行:能够调取各类组件和工具,按照执行步骤依次执行,实现任务目标;

(3)记忆并持续迭代:记忆,既有短期记忆存储即时信息,又有长期记忆沉淀持久知识, Al Agent能够自动记录任务目标、工作流和执行结果,基于结果反馈,沉淀专家知识和案例。

4、Agent是AGI的第三个阶段

OpenAI将通用人工智能AGI的发展分为了五个阶段,用于描述AGI从低级到高级、从简单到复杂的路径。

第一阶段:‌聊天机器人–Chatbots,这一阶段的AI能够进行基本的对话,翻译、摘要等,但缺乏深度推理能力类似于之前的ChatGPT;

第二阶段:推理者–Reasoners;在这一阶段够以人类专家的水平解决复杂推理和决策的问题,如医疗诊断、金融风险评估,OpenAI的o1、o3、DeepSeek R1也是这个阶段的推理大模型;

第三阶段:智能体–Agents,处于验室向商业化过渡阶段,可自主完成“思考 - 决策 - 执行”闭环,这一阶段包括,自动驾驶和机器人控制等,能够实现自主决策和行动;

第四阶段:创新者‌–Innovators,尚在探索中,AI系统具有创造性和独创性,像AlphaFold助力蛋白质结构预测那样,可辅助人类在科研、艺术等领域实现突破性发明与创作;

第五阶段:组织者–Organizations,是AGI终极形态,目前未实现,系统不仅具备战略思维,还拥有高效率和强适应性,能够管理复杂的系统,承担组织和管理的工作‌。

如果说AI在前三阶段还是人类的助手的话,到第四阶段就已经成为人类的合作者,到第五阶段简直就可以去驱使人类了。

从目前的人工智能发展阶段来看,第五级的重大意义在于,人工智能不仅可以作为单个个体开展工作,还可以相互协作、组织成为一个公司,人工智能的作用可以成千上万倍放大,实现规模化运作。

5、 Agent的六大模式(2025年)

(1)Agentic RAG(推理型检索增强生成)

Agentic RAG 是一种融合检索增强(RAG)、智能规划(Agent)、工具调用(Tools)、和可持续上下文(Memory)的多步推理架构,使大模型能够执行复杂任务,而不仅是回答问题。

Agentic RAG = RAG(检索) + Agent(规划) + Tools(执行) + Memory(上下文)→ 让大模型从“回答问题”升级为“完成任务”。

国内的代表是:① 百度文心一言 + 搜索增强:结合百度搜索做事实检索;② 360纳米搜索:整合360搜索的即时信息流。

(2)Voice Agents(语音智能体)

Voice Agent 是指基于语音交互的人机智能体系统,结合 ASR、NLU、任务规划与执行以及 TTS 技术,实现从语音输入到任务完成再到语音输出的全链路闭环。

Voice Agent简单来说,就是一个「能说话的智能体」——用户开口说话,它理解、回应、执行,一切都像在和人交谈。

代表案例是:① OpenAI GPT-4o Voice:多模态对话,低延迟语音交互;② 字节的豆包:强实时语音识别与合成;③ 小米的小爱同学:深度嵌入IoT生态等。

(3)CUA(像人类一样使用电脑的代理)

CUA,全称Computer Using Agents,AI能够像人类一样点鼠标、敲键盘、操作计算机,它不再是“顾问”,而是“数字实习生”。

CUA实现从“理解指令”到“执行操作”的闭环能力。其核心是整合视觉感知、任务规划和物理操作三大能力,通过屏幕截图获取视觉信息,基于多模态大模型推理分解任务步骤,最终控制鼠标、键盘等输入设备完成操作。

主要应用场景是:自动化办公、桌面软件操作、RPA(机器人流程自动化)。

目前的代表例子是:① MultiOn:能代替用户操作网页、表格、日历等;②字节跳动的 扣子空间:低代码构建多场景桌面操;③ Fellou:网页与桌面操作的自动化执行。

(4)Coding Agents( 代码智能体)

Coding Agents是一种专门用于编程任务的智能体,它能够在软件开发过程中根据环境中的工具,执行相应的操作,去辅助用户做一些功能,如代码生成、调试、优化等。

Coding Agents程序员的“代码搭档”,核心是“让编程更高效”。

代表案例是:① GitHub Copilot Workspace:支持从需求到部署的全链路编码;② 阿里的通义灵码:嵌入IDE的代码生成与调试;③ 百度Comate:结合文心大模型的智能编程工具。

(5) Deep Research Agents(深度研究型智能体)

Deep Research系统最能体现AI智能体在科研领域的潜力与局限。这类系统采用多智能体架构,能够在几分钟内整合和分析数百个信息源,生成带有准确引用的综合研究报告。

当面对一个研究问题时,主控智能体会将其拆分为多个子任务,调度不同的智能体分别搜集和分析资料,最后再把各部分成果汇总成一份结构完整、逻辑连贯的报告。

代表案例是:① OpenAI Deep Research(2025新功能):多Agent长期调研;② 阿里千问深度研究:针对行业报告和市场分析;③ 豆包的深入研究,可以做行业分析。

(6) Agent Protocols(智能体协议)

Agent Protocols 是一套标准化的规则、格式和流程,用于规范人工智能代理(Agent)之间以及代理与外部系统(如数据、工具、服务等)之间的通信和协作。

现在智能体多了,各有各的协议,Agent Protocols 是用于统一Multi-Agent Communication(多代理通信) 的协议标准,核心是“让不同Agent能听懂彼此的话”,简化跨平台协作。


知识卡片:常见Agent Protocols协议

  • A2A Protocol(Agent-to-Agent):允许Agent之间直接交换信息,比如“Agent 1负责查天气,Agent 2负责订酒店,它们可以互相传递数据,帮你规划旅行”;
  • MCP(Message Communication Protocol):用于Agent与服务器之间的通信,比如“Agent 通过MCP向服务器发送请求,获取用户的历史订单信息”。

典型代表是:① Google AI Device Kit(ADK):多Agent跨设备调用;② OpenAI MCP(Model Context Protocol):跨模型的上下文共享;③ 字节跳动Coze协议层:支持不同Bot的消息与任务协作;④ 阿里云AgentFlow:跨Agent编排与协议转换。

6、Agent的限制的三因素:算力、隐私、数据

Agent是自主软件程序,由记忆、权限、工具、决策机制和学习机制等关键技术组件构成,它们在执行任务时面临算力限制、数据壁垒、隐私保护等限制因素,解决这些限制是 Agent顺利落地的关键。

(1)算力需求随着模型复杂度增加而激增,特别是在大语言模型和多模态模型的应用中。算力需求的增长导致训练和推理需求难以满足,同对在高使用期算力分配不均可能造成延迟或无法访问。

(2)Agent的数据需求是其感知、学习和决策的基础,但面临优质语料短缺、数据打通难度、有毒数据增多和数据多样性不足等技术瓶颈。

(3)隐私保护是Agent应用的前提,确保用户信任和法律合规。个人或组织对其数据拥有控制权和保密权的状态。Agent依赖数据驱动,而数据往往涉及敏感信息。

二、市场空间&现状

根据第一新声智库,2025年中国企业级AIAgent市场规模将达到232亿元。2023-2027年中国企业级AI Agent市场规模复合增长率将达到120%,至2027年,企业级 Agent市场规模将达到655亿元。

AI Agent将对Saas市场的重构,相关企业在SaaS产品中集成AI Agent功能所产生的市场价值巨大。

目前 Agent 行业渗透:智能客服约70%,成为最成熟场景; 数据分析约60%,是业务决策的核心支撑;内容创作约45%;研发设计、营销、知识助手、智能辅导等渗透率较低,场景孕育着下一轮爆发点。

三、产业链全图谱

AI Agent产业链上游:可以分为基础设施与技术供应商,注重算力和数据基础;中游:为 AI Agent研发与集成商,主要可以分为系统集成厂商、软件开发厂商以及解决方案供应商,其中目前大部分企业正在处于优化产品和探索应用场景阶段;下游:主要为应用与终端客户,强调应用落地和用户体验。

AI Agent的产业发展依赖于大模型技术的迭代、算力的提升以及应用场景的拓展,各环节相互协作,共同推动AI Agent的商业化进程。

1. 上游:基础设施与技术提供商

国内主要可以分为AI芯片、服务器集成厂商、算法框架、大模型厂商、数据服务商以及云计算平台等

(1)算法框架:业内通常使用谷歌Tensorflow和脸书Pytorch作为AI算法框架,昇思MindSpore于2023年打造业界首个AI融合框架,提供全面的分布式并行能力。

(2)大模型:AI Agent的核心驱动力是大语言模型。因此,大型的开发者在产业链中占据重要地位,提供基础模型和算法支持,使得AI Agent能够具备感知、理解、决策和执行的能力。

下表:2025 中国大模型 Top 10 排行榜

排名公司代表模型 / 产品排名公司代表模型 / 产品
1DeepSeekDeepSeek-V36智谱 AIGLM-4
2阿里.千问Qwen37月之暗面Kimi / K2
3字节·豆包Doubao 1.5 Pro8MiniMax海螺 AI
4腾讯· 混元元宝9科大讯飞星火 X
5百度·文心一言Ernie 4.5 / 510百川智能Baichuan-M2

(3)AI 芯片 :提供算力支持,是灵魂,当前主流的AI agent 芯片主要分为三类,GPU、FPGA、ASIC:

①、GPU:英伟达NVIDIA一家独大,占据81%的市场份额,其次是AMD和Intel,分别占据18%和1%的市场份额;国内厂商:寒武纪、景嘉微、海光信息、天数智芯,功能和应用领域等方面都有了提升;

②、ASIC :博通AVGO、美满电子MRVL 两家全球巨头;国内寒武纪、芯原股份、嘉楠科技 CAN 也在奋力直追;

③、FPGA:安路科技是国内FPGA业务领军企业;复旦微电是FPGA芯片重要供应商。

(4)服务器: 国内龙头公司:inspur浪潮、 Sugon 中科曙光和华为;

5)数据服务:国外:澳大利亚的Appen;国内:浪潮 、 标贝科技是龙头。

2.中游AI Agent研发与集成商:

负责将大模型与其他技术组件(如规划、记忆、工具使用和行动模块)相结合,开发出具有特定功能和应用场景的 AI Agent产品。通常拥有强大的研发团队和技术实力,能够不断优化和迭代产品以满足市场需求。

(1)系统集成:国内头部是–联想 、科大讯飞、用友 、钉钉 、 况客科技、 Moka公司;

(2)软件平台开发:面壁智能 、实在智能、汇智智能 、澜码科技 、联汇等都是国内不错的公司;

(3)解决方案提供商: 华为云 、百度智能云、 阿里云、 腾讯云 京东云 天翼云等国内公司。

3.下游应用厂商:

AI Agent的应用场景广泛,聚焦B端与C端场景落地。包括智能客服、个人助理、自动驾驶、软件开发、财务管理等多个领域。应用厂商根据不同行业和场景的需求,利用AI Agent 技术开发出各种应用产品和服务,直接面向终端用户,负责产品的推广和销售。

(1)通用智能体:

备跨领域适应性,定位为“全能助手”。

(2)垂直智能体:

专注特定场景或领域,强调专业知识,定位为“行业专家”

四、相关标的

以下是不完全列举:

① AI+数据: 海天瑞声、深桑达A;

② AI+农业: 托普云农;

③ AI+医疗: 嘉和美康、卫宁健康、开勒股份、润达医疗、国新健康、久远银海、塞力医疗、创业惠康、思创医惠、东华软件、医脉通;

④ AI+教育: 科大讯飞、豆神教育、佳发教育、竞业达、拓维信息;

⑤ AI+能源: 国能日新、国网信通、朗新集团、南网科技;

⑥ AI+交通: 千方科技、易华录、万集科技、金溢科技、信息发展;

⑦ AI+资管: 恒生电子、顶点软件;

⑧ AI+银行: 宇信科技、天阳科技、博彦科技、京北方、长亮科技;

⑨ AI+保险: 中科软、新致软件;

⑩ AI+政务: 太极股份、南威软件、新点软件、数字政通、拓尔思;

⑪ AI+司法: 金桥信息、华宇软件、通达海;

⑫ AI+财税: 税友股份、中科江南、博思软件;

⑬ AI+烟草: 中科信息;

⑭ AI+港口: 盛视科技;

⑮ AI+企业服务: 金山办公、用友网络、金蝶国际、浪潮数字企业、光云科技、致远互联、泛微网络;

⑯ AI+建筑: 广联达、品茗科技;

⑰ AI+零售: 石基信息、焦点科技、值得买;

⑱ AI+具身: 东土科技、能科科技;

⑲ AI+工业软件: 中望软件、华大九天、中控技术、索辰科技、宝信软件。

那么,如何系统的去学习大模型LLM?

作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值