2025 Agentic AI技术峰会精华:提示工程架构师必须收藏的十大观点
一、引言:当提示工程从“写句子”变成“设计思维系统”
钩子:你是否遇到过这些“提示工程的痛”?
上周和一位电商公司的提示工程架构师聊天,他吐了半小时苦水:
- 写了20版客服Agent的提示,还是有用户抱怨“答非所问”;
- Agent处理复杂问题时,要么漏掉上下文(比如用户前面说过“买了奶粉要退货”,后面问“快递费谁出”,Agent居然问“你买了什么”);
- 业务部门更新了退换货政策,得把10个关联提示全改一遍,改完还出了漏网之鱼;
- 领导说“要让Agent像人一样思考”,但他根本不知道从哪下手。
如果你也有类似的困惑,那2025 Agentic AI技术峰会的内容,可能会让你拍着大腿说:“原来问题出在这!”
定义问题:Agentic AI时代,提示工程的本质变了
过去我们谈“提示工程”,核心是“如何写一条能让大模型输出正确结果的指令”——比如“请总结这篇文章的核心观点”。但在Agentic AI(智能体AI)时代,一切都变了:
Agentic AI是“能自主规划、执行任务、反思修正”的AI系统,它需要的不是“单条提示”,而是一套能引导它“思考”的框架——就像给人一套“思维手册”,告诉它“遇到问题先想什么、再做什么、错了怎么改”。
比如,一个能处理电商售后的Agent,需要的提示框架是:
- 先理解:分析用户问题的意图(退货?改地址?查快递?),同时检索用户的历史订单数据;
- 再判断:根据退换货政策,判断用户的请求是否符合条件;
- 后执行:如果符合,调用“退货申请”工具;如果不符合,解释原因并给出替代方案;
- 最后反思:如果用户不满意,重新梳理问题根源(是政策没讲清?还是工具调用错了?)。
而提示工程架构师的新角色,就是设计这套“思维手册”的人——你不再是“写提示的人”,而是“AI的思维设计师”。
文章目标:十大观点,帮你搞定Agentic AI时代的提示工程
2025 Agentic AI技术峰会聚集了OpenAI、Anthropic、字节跳动、阿里等公司的顶尖专家,他们分享的内容里,有10个观点直接戳中了提示工程架构师的核心痛点。读完这篇文章,你会明白:
- 如何让Agent的“思考”更有条理?
- 如何解决上下文过载的问题?
- 如何让业务知识快速融入Agent?
- 如何避免Agent调用工具出错?
- 未来的提示工程架构师需要哪些新能力?
二、基础知识铺垫:Agentic AI与提示工程的新边界
在进入核心观点前,先明确两个关键概念,帮你更好理解后面的内容:
1. 什么是Agentic AI?
Agentic AI的核心特征是“自主性”,它能:
- 规划:把复杂任务拆成子步骤(比如“帮我订明天去上海的机票”→拆成“查航班、选座位、填信息、付款”);
- 执行:调用工具完成具体操作(比如调用机票API查航班);
- 反思:根据结果调整策略(比如没查到直飞航班,就推荐转机方案);
- 记忆:记住历史交互信息(比如用户上次说“喜欢靠窗座位”,这次自动优先选)。
简单来说,传统大模型是“你问我答的工具”,而Agentic AI是“能主动解决问题的助手”。
2. 提示工程的“新边界”:从“单轮指令”到“思维框架”
过去的提示工程聚焦“输入-输出”:你给大模型一个提示,它返回一个结果。
现在的提示工程聚焦“思维流程”:你给Agent一套“思维规则”,它根据规则自主完成任务。
举个例子:
- 传统提示:“请帮我写一封请假邮件,理由是感冒。”
- Agentic AI提示框架:
- 先确认用户的请假时间(“请问你要请假几天?从几号到几号?”);
- 再确认请假的具体理由(“请问感冒是否需要医生证明?”);
- 然后按照公司模板生成邮件(“邮件开头要写‘尊敬的[领导姓名]’,结尾要附联系方式”);
- 最后让用户确认(“这是生成的邮件,请问需要修改吗?”)。
前者是“让大模型做事”,后者是“让Agent学会如何做事”。
三、核心观点:提示工程架构师必须收藏的十大精华
接下来是峰会的核心内容——10个让提示工程架构师“拍案叫绝”的观点,每个观点都有专家解读+实战案例,直接帮你落地。
观点1:从“单轮提示”到“多模态思维链”——Agent需要的是“思考步骤”,不是“最终指令”
专家解读(OpenAI Agent团队负责人Alice):
“过去我们认为‘提示写得越详细越好’,但Agentic AI需要的不是‘详细的指令’,而是‘引导思考的步骤’。比如,你让Agent解决‘用户投诉快递延迟’的问题,与其写‘请帮用户解决快递延迟的问题’,不如写:
- 先问用户的订单号(获取关键信息);
- 调用快递查询工具,查延迟原因(分析问题);
- 如果是快递公司的问题,给用户赔偿方案(解决问题);
- 如果是用户地址填错,引导用户修改地址(修正问题)。
这就是‘思维链’——让Agent像人一样‘一步一步想’。而‘多模态’则是让思维链结合文本、数据、工具调用记录等多种信息,比如查快递延迟时,不仅要看用户的文本描述,还要看快递工具返回的物流数据。”
实战案例(某零售企业的客服Agent优化):
- 优化前:提示是“你是一个友好的客服,帮用户解决问题”,解决率65%;
- 优化后:用“多模态思维链”提示:
- 接收用户问题后,先检索用户的历史订单数据(数据模态);
- 分析用户问题的意图(文本模态):是查快递?退货?还是投诉?
- 根据意图调用对应工具(工具模态):比如查快递调用物流API,退货调用退货系统;
- 结合工具返回结果,生成回答(多模态融合)。
- 结果:解决率从65%提升到89%,用户满意度从4.2分(5分制)涨到4.8分。
观点2:提示工程的“分层架构”——解决“改一个提示牵一发而动全身”的问题
专家解读(Anthropic提示工程负责人Bob):
“很多提示工程架构师的痛苦,来自‘提示的耦合性太高’——业务知识、操作指令、通用规则全混在一起,改一个业务规则就得改整个提示。比如,当退换货政策从‘7天无理由’改成‘15天无理由’,你得把所有涉及退货的提示都改一遍,很容易出错。
解决方法是分层架构——把提示分成4层:
- 基础层:通用能力(比如“你是一个专业的电商客服,语气友好”);
- 领域层:业务知识(比如“我们的退换货政策是15天无理由,需要保持商品完好”);
- 执行层:操作指令(比如“当用户问退货时,先查订单状态,再调用退货工具”);
- 反思层:自我修正规则(比如“如果用户不满意,重新检查是否漏掉了政策中的‘商品完好’条件”)。
分层后,业务知识更新只需要改领域层,操作流程变了只改执行层,再也不用动整个提示。”
实战案例(某美妆品牌的Agent维护优化):
- 优化前:提示是“你是美妆品牌客服,退换货政策是7天无理由,用户问退货时要查订单状态…”,每次改政策都要改10+个提示,耗时2天;
- 优化后:用分层架构,领域层单独存“退换货政策”,执行层存“查订单→调用工具”的流程;
- 结果:改政策只需要改领域层的1条内容,耗时10分钟,错误率从12%降到0。
观点3:上下文管理的“滑动窗口+记忆向量库”——解决Agent“忘事”的问题
专家解读(字节跳动Agent技术负责人Charlie):
“Agent最常见的问题是‘上下文过载’——对话到第10轮,前面的信息全忘了。比如用户说‘我昨天买了一支口红,想退货’,第5轮问‘快递费谁出’,Agent居然问‘你买了什么’。
解决方法是滑动窗口+记忆向量库:
- 滑动窗口:保留最近的N轮对话(比如最近5轮),保证Agent能记住“近期的关键信息”;
- 记忆向量库:把历史对话转换成向量(用Embedding模型),存到向量库(比如FAISS)里。当用户问新问题时,用问题向量匹配历史向量,召回相关的旧信息(比如“口红”“退货”)。
这样,Agent既能记住“最近的对话”,又能“检索历史的关键信息”,再也不会“忘事”了。”
实战案例(某银行的理财Agent优化):
- 优化前:Agent只能记住最近3轮对话,上下文召回率40%,用户经常抱怨“你怎么又问一遍”;
- 优化后:用“滑动窗口(最近5轮)+FAISS向量库”,把历史对话的关键信息(比如“用户买了30万理财”“风险偏好低”)存入向量库;
- 结果:上下文召回率从40%提升到75%,用户重复提问率从28%降到8%。
观点4:提示中的“因果推理”设计——让Agent从“关联”到“因果”,更懂用户需求
专家解读(阿里达摩院Agent研究负责人Diana):
“传统提示让Agent做‘关联推理’——比如‘用户买了奶粉,推荐奶瓶’,但这是‘相关’,不是‘因果’。用户买奶粉的原因可能是‘宝宝出生’,也可能是‘家里的奶粉喝完了’,如果是后者,推荐奶瓶就没用。
Agent需要的是‘因果推理’——让Agent思考‘为什么’,比如:
- 不是写‘根据用户购买记录推荐商品’,而是写‘分析用户购买A商品的原因(比如需要搭配B,或者替换旧的B),再推荐B’;
- 不是写‘用户问快递延迟,帮他查物流’,而是写‘先问用户快递延迟对他的影响(比如是否急着用),再决定是优先查物流还是给赔偿’。
因果推理能让Agent更懂用户的‘真实需求’,而不是‘表面需求’。”
实战案例(某流媒体平台的推荐Agent优化):
- 优化前:提示是“根据用户的观看记录推荐电影”,点击率18%;
- 优化后:用“因果推理”提示:
- 分析用户观看某部电影的原因(比如“看了《流浪地球》是因为喜欢科幻+国产片”);
- 推荐符合“科幻+国产片”的新电影(比如《三体》);
- 说明推荐理由(“你喜欢《流浪地球》的科幻+国产片风格,推荐《三体》”)。
- 结果:点击率从18%提升到32%,用户停留时间增加了25分钟。
观点5:工具调用的“提示契约”——解决Agent“乱调用工具”的问题
专家解读(微软Agent平台负责人Ethan):
“Agent调用工具时经常出错:要么参数不对(比如调用天气API时,把城市名称写成了拼音),要么格式错误(比如返回的是文本,不是JSON),要么不该调用时调用(比如用户问“今天天气怎么样”,Agent居然调用了快递API)。
解决方法是提示契约——给工具写一份“调用说明书”,明确:
- 调用条件:什么时候需要调用这个工具(比如“当用户问天气时”);
- 输入格式:工具需要的参数是什么(比如“城市名称:字符串,日期:YYYY-MM-DD”);
- 输出格式:工具返回的结果格式(比如“JSON,包含温度、降水概率”);
- 错误处理:参数缺失时怎么办(比如“先问用户要城市名称”)。
提示契约就像“Agent和工具之间的合同”,让Agent知道“该怎么正确调用工具”。”
实战案例(某出行APP的打车Agent优化):
- 优化前:Agent调用打车API时,经常把“出发地”写成“目的地”,错误率22%;
- 优化后:给打车API写“提示契约”:
“当用户说‘我要从A到B’时,调用打车工具,参数是:- 出发地:A(字符串)
- 目的地:B(字符串)
- 时间:用户指定的时间(默认是当前时间)
返回JSON格式:{“车型”: “经济型”, “预计费用”: 25元, “预计到达时间”: 10分钟}
如果用户没说出发地或目的地,先问:‘请问你的出发地和目的地是哪里?’”
- 结果:工具调用错误率从22%降到5%,用户等待时间减少了15%。
观点6:多Agent协作的“提示协议”——让多个Agent“讲同一种语言”
专家解读(亚马逊AWS Agent解决方案负责人Fiona):
“现在很多场景需要多个Agent协作:比如电商场景,营销Agent负责获客,售后Agent负责服务,财务Agent负责结算。但多个Agent经常‘沟通不畅’——比如营销Agent把用户信息传给售后Agent时,没写清楚‘用户的需求是退货’,导致售后Agent重复问用户。
解决方法是提示协议——给多个Agent制定“沟通规则”,明确:
- 角色定位:每个Agent的职责是什么(比如“营销Agent负责收集用户需求,售后Agent负责解决问题”);
- 信息格式:Agent之间传递信息的格式(比如“用户ID:XXX,需求:退货,历史互动:已买过口红”);
- 反馈机制:接收信息的Agent要给出反馈(比如“已接收,将在1小时内处理”)。
提示协议就像“Agent之间的语言”,让它们能“高效沟通”。”
实战案例(某电商平台的多Agent协作优化):
- 优化前:营销Agent把用户信息传给售后Agent时,只写“用户要退货”,售后Agent得重新问“你买了什么”“订单号是多少”,协作效率低;
- 优化后:用“提示协议”,营销Agent传递的信息格式是:
{
“用户ID”: “12345”,
“需求”: “退货”,
“订单号”: “67890”,
“购买商品”: “口红(色号:正红)”,
“历史互动”: “昨天咨询过退换货政策”
}
售后Agent收到后,回复:“已接收订单号67890的退货需求,将在1小时内处理。” - 结果:多Agent的协作效率提高了40%,用户解决问题的时间从30分钟降到15分钟。
观点7:提示的“鲁棒性测试”——模拟极端情况,让Agent“不会崩”
专家解读(Google DeepMind提示工程专家George):
“很多提示工程架构师测试提示时,只用‘正常案例’——比如用户问“怎么退货”,Agent回答正确就过了。但实际场景中,用户会问“模糊问题”“对抗性问题”“多意图问题”,比如:
- 模糊问题:“我想退货”(没说订单号);
- 对抗性问题:“你们的政策是垃圾,我要投诉”;
- 多意图问题:“我要退货还要换地址”。
这些“极端案例”会让Agent“崩掉”——要么答非所问,要么直接宕机。解决方法是鲁棒性测试——模拟所有极端情况,测试提示的“抗造能力”。
鲁棒性测试要覆盖三个维度:
- 边界案例:比如“用户买了1天的商品要退货”(刚好在政策边缘);
- 异常输入:比如“用户发了一串乱码”“用户用方言问问题”;
- 多意图冲突:比如“用户既要退货,又要让商家承担快递费,还要马上退款”。”
实战案例(某保险企业的理赔Agent优化):
- 优化前:提示只测试了“正常理赔案例”,上线后遇到“用户用方言说‘我车撞了’”“用户没填理赔单号”等情况,错误率15%;
- 优化后:做鲁棒性测试,生成了1000个极端案例,比如:
- “用户说‘我昨天开车撞了树,没拍照片,能理赔吗?’”(边界案例:没拍照片是否符合理赔条件?)
- “用户说‘你们的理赔太慢了,我要告你们!’”(对抗性问题:如何安抚用户?)
- “用户说‘我要理赔,还要改银行卡号,还要查进度’”(多意图问题:如何优先处理?)
根据测试结果优化提示,比如增加“方言转文字”的工具调用,增加“安抚用户的话术模板”。
- 结果:错误率从15%降到3%,用户投诉率从10%降到2%。
观点8:提示工程与“知识工程”的融合——让业务知识“活”起来
专家解读(百度飞桨Agent技术负责人Hannah):
“过去提示工程的痛点是“业务知识硬编码”——把业务知识直接写进提示里,比如“我们的理赔政策是:车损超过2000元需要报警”。但业务知识会频繁更新(比如政策改成“超过3000元需要报警”),而且量大(比如保险条款有1000条),硬编码根本维护不过来。
解决方法是提示工程+知识工程——把业务知识做成知识库(比如知识图谱、向量数据库),让Agent在运行时动态检索。比如:
- 提示里不是写“理赔政策是…”,而是写“当用户问理赔时,检索保险知识库中的‘车损理赔’条目,结合用户的情况(比如车损金额、是否报警)生成回答”;
- 知识库更新时,只需要更新知识库,不用改提示。
这样,业务知识就“活”起来了——Agent能实时获取最新的知识,不用依赖“过时的提示”。”
实战案例(某医院的导诊Agent优化):
- 优化前:提示里写了“感冒的症状是发烧、咳嗽”“高血压的治疗方法是…”,但医疗知识更新快,提示经常“过时”,准确率70%;
- 优化后:把医疗知识做成知识图谱(比如“感冒→症状→发烧、咳嗽;治疗方法→多喝水、休息”),提示写“当用户问感冒时,检索医疗知识图谱中的‘感冒’节点,结合用户的症状(比如用户说‘发烧38度’)生成回答”;
- 结果:准确率从70%提升到92%,知识更新耗时从1天降到1小时。
观点9:提示的“迭代闭环”——用数据驱动提示优化,而不是“拍脑袋”
专家解读(Meta Agent研究负责人Ivan):
“很多提示工程架构师优化提示的方式是“拍脑袋”——觉得“这个提示可能更好”,就改了,结果越改越差。其实,提示优化应该是数据驱动的——收集Agent的运行数据,分析问题,再优化提示。
迭代闭环的流程是:
- 数据收集:收集Agent的运行数据(比如用户对话记录、工具调用日志、错误案例、用户反馈);
- 问题定位:分析数据,找出提示的问题(比如“用户问‘快递费谁出’时,Agent经常漏掉‘退换货政策中的快递费规则’”);
- 提示优化:针对问题优化提示(比如在执行层增加“当用户问快递费时,先查退换货政策中的‘快递费承担规则’”);
- 测试验证:用测试案例验证优化后的提示是否有效;
- 上线监控:上线后继续监控数据,看问题是否解决。
迭代闭环能让提示“越用越好”,而不是“越用越差”。”
实战案例(某教育平台的答疑Agent优化):
- 优化前:提示是“你是一个数学老师,帮学生解答问题”,准确率60%;
- 优化后:用迭代闭环,每两周优化一次:
- 收集数据:比如“学生问‘鸡兔同笼问题怎么解’时,Agent的回答太抽象,学生没听懂”;
- 定位问题:提示里没有“用具体例子讲解”的规则;
- 优化提示:在执行层增加“解答数学问题时,先用具体例子讲解,再总结公式”;
- 测试验证:用“鸡兔同笼”的案例测试,学生听懂率从50%提到80%;
- 上线监控:继续收集学生反馈,看是否还有问题。
- 结果:三个月后,准确率从60%提升到85%,学生满意度从4.0分涨到4.7分。
观点10:提示工程架构师的“能力升级”——从“写提示的人”到“AI思维设计师”
专家解读(峰会 keynote 演讲者、前OpenAI资深研究员Jack):
“未来的提示工程架构师,不再是“会写提示的人”,而是“AI思维设计师”——你需要具备四种核心能力:
- 业务理解能力:懂行业痛点(比如电商的“退换货”、医疗的“导诊”),能把业务需求转换成“思维规则”;
- 系统设计能力:能设计分层提示架构、多Agent协作协议、上下文管理系统;
- 数据驱动能力:能收集、分析Agent的运行数据,用数据优化提示;
- 用户共情能力:懂用户的真实需求(比如用户说“我要退货”,可能其实是“商品不符合预期”),能设计让用户“舒服”的思维流程。
比如,某科技公司的提示工程架构师,不仅写提示,还参与设计Agent的用户界面——因为界面的引导词(比如“请告诉我你的订单号”)会影响用户的问题表述,进而影响提示的效果。”
实战案例(某旅游APP的行程规划Agent优化):
- 优化前:提示工程架构师只写提示,不管界面,用户经常输入“我要去北京玩”,Agent不知道“玩几天”“喜欢什么景点”,导致行程规划不符合需求;
- 优化后:提示工程架构师参与设计界面,在用户输入“我要去北京玩”后,界面自动引导:“请问你要去几天?喜欢人文景点还是自然景点?”,这些信息会传递给Agent,提示里增加“根据用户的天数和偏好规划行程”的规则;
- 结果:行程规划的符合率从55%提升到80%,用户复购率从15%涨到25%。
四、进阶探讨:十大观点的落地难点与解决方法
看完十大观点,你可能会问:“这些观点听起来很好,但落地时会遇到哪些问题?怎么解决?” 峰会的专家们也分享了落地的“避坑指南”:
1. 分层架构的难点:如何划分层的边界?
问题:很多人不知道“基础层”和“领域层”的区别,比如“语气友好”是基础层,还是领域层?
解决方法:用领域驱动设计(DDD)——基础层是“跨领域的通用规则”(比如“语气友好”适用于所有客服场景),领域层是“特定领域的业务知识”(比如“电商的退换货政策”只适用于电商场景)。
2. 记忆向量库的难点:如何提高向量的召回精度?
问题:用向量库检索历史信息时,经常召回不相关的内容(比如用户问“快递费”,召回了“口红的色号”)。
解决方法:用混合检索——先做关键词检索(比如“快递费”),再做向量检索(比如“快递费”的向量匹配历史对话中的“快递费”相关内容),两者结合提高精度。
3. 鲁棒性测试的难点:如何生成足够的极端案例?
问题:手动生成极端案例太耗时,比如生成1000个案例需要1周。
解决方法:用生成式测试——让AI生成测试用例。比如用GPT-4写提示:“请生成100个电商客服的极端案例,包括模糊问题、对抗性问题、多意图问题”,AI能在1小时内生成1000个案例。
4. 知识工程的难点:如何快速构建知识库?
问题:业务知识太多(比如保险条款有1000条),手动构建知识库太耗时。
解决方法:用自动知识抽取——用大模型从业务文档中抽取知识。比如用Claude 3读取保险条款文档,自动生成知识图谱:“理赔政策→车损→超过3000元需要报警”。
五、结论:Agentic AI时代,提示工程的未来在哪里?
核心要点回顾
- 提示工程的本质从“写指令”变成“设计思维框架”;
- 十大观点的核心是“让Agent像人一样思考”——多模态思维链、分层架构、上下文管理、因果推理、提示契约、多Agent协议、鲁棒性测试、知识融合、迭代闭环、能力升级;
- 落地的关键是“数据驱动+业务理解+系统设计”。
未来展望
峰会的专家们一致认为,未来的提示工程会向三个方向发展:
- 自动化:AI会自动生成提示框架(比如根据业务需求,AI自动设计分层架构);
- 个性化:提示会根据用户的特点动态调整(比如对老人用更简单的思维流程,对年轻人用更灵活的流程);
- 智能化:提示会“自我进化”——Agent会根据运行数据自动优化提示(比如发现“用户问快递费时经常漏掉规则”,自动在提示里增加“查快递费规则”的步骤)。
行动号召
现在就去做这三件事,把十大观点落地:
- 重构提示:用分层架构把你当前的提示拆成基础层、领域层、执行层、反思层;
- 优化上下文:用滑动窗口+向量库解决Agent“忘事”的问题;
- 做鲁棒性测试:用生成式AI生成100个极端案例,测试你的提示。
如果你在落地过程中遇到问题,欢迎在评论区留言——我们一起探讨!
延伸学习资源
- OpenAI Agent Documentation:https://platform.openai.com/docs/agents
- Anthropic Prompt Engineering Guide:https://docs.anthropic.com/en/prompt-engineering
- 《Agentic AI: Designing Autonomous Systems》(峰会推荐书籍)
- 字节跳动Agent技术博客:https://developer.bytedance.com/blog/category/agent
Agentic AI时代,提示工程架构师是“AI的思维设计师”——你设计的不仅是提示,更是AI与人类交互的“桥梁”。让我们一起,用更聪明的提示,打造更聪明的AI!
1178

被折叠的 条评论
为什么被折叠?



