今日暴论:不存在通用的Agent能力

做Agent有段时间,零零散散有些想法以主动被动的形式充斥在大脑里,索性记录一下。还不足以形成条理,也没有严谨的论证,姑且称之为暴论吧,止增笑耳。

怎么定义当前的Agent:

大模型为中枢处理模块负责对用户的输入指令进行理解规划,之后持续迭代的通过各种协议调用外部工具获取结果并进行分析处理,直到完成用户需要把结果呈现给用户。

Agent的特点:

Agent的优点在于可以对用户复杂指令进行详尽、细致的理解、拆分以及规划(分置是王道,任何问题难以解决往往是由于拆得还不够细),同时能够调用更优质更垂直的外部工具(api、abi等)在每个子任务都获得更为精准、丰富的结果,最终更好的解决用户问题。而Agent的缺点则在于其执行链路长(这是和优点一体两面的,我们需要找到合适的场景,突出优点,弱化缺点),链路执行效果难以控制(甚至中间需要进一步与用户进行交互)

优质的Agent产品需要考虑的几个要素:

  • 用户:需要考虑到用户画像,用户记忆,用户行为记录做更加个性化,更加细致的规划。如出行场景中学生用户和三口之家出行规划肯定是不一样的

  • 场景:如何找到一个好的场景。首先要回答好几个问题,这个场景是否是用户需要的、对应的用户群体是否是我们的目标用户,这个场景能否突出 Agent的优势,弱化其劣势。对比以前的解决方案,Agent能否给用户带来明显的效果提升(如更加自动化的解决用户以前要花人力去解决的机械问题,或者是能够规划的更为完备详尽,执行的更为高效精准)

  • 生态:围绕特定场景构建生态至关重要,如目前飞猪的出行Agent问一问就很好的整合了自己的旅行搜索,火机酒服务等生态。优质的生态可以支撑优质的规划,给用户带来更优质的体验

  • 度量:目前我看到的很多Agent产品是没有度量标准的,到底是更快速的解决了用户问题,更优质的解决了用户的问题,还是自动化解决了用户不愿意投入精力的问题,需要定义清楚并给出标准。(举一个反例就是用Agent写论文,个人认为就是一个根本无法度量的产品)

Agent的相关技术点:

目前Agent两个流派:

  1. planning+execution流派,该流派分为两个阶段,任务规划阶段(planning,这块主要是由大模型完成,对用户指令进行理解、拆分、规划),任务执行阶段(execution,执行任务规划阶段输出的子任务,结合用户记忆调用外部工具,并不断和大模型交互)。这个流派的优势在于,任务执行阶段有任务规划给出的流程进行整体控制,执行链路不会出现太大跳跃,缺点在于对规划的要求很高,并且执行阶段难以针对中间的突发状况做出响应处理(过于依赖规划)

  2. react流派,该流派没有明确的任务规划,每次执行都把中间结果返回给模型,有模型思考下一步如何处理,与planning+execution模式相反,该流派的可扩展性和针对异常处理的能力较强,但可控性就差了很多(没有规划控制)

目前较多的还是选择第一种流派,结合现在推理模型,也能够达到不错的效果

技术实现路线:

  1. prompt路线:该路线完全依赖prompt,Agent链路的每个阶段都编写不同的prompt,给出指令和fewshot做控制,整体效果比较难控制,尤其是在复杂外部工具的调用上

  2. sft+rft+开源模型路线:这个路线由于没有自己的优质模型,依赖开源模型进行针对性的sft和强化学习微调,使得规划更为细致,执行更加精准,但是整体受限于原有模型基座分布

  3. sft+rft+自研模型路线:这个是有自研模型的大厂玩的(如ds,阿里,字节,openai等),这些公司可以把常用Agent的子任务执行做成指令跟随的训练数据集,把任务规划做成逻辑推理的训练数据集,在post-training阶段进行训练,比起依赖开源模型训练,包袱更小,整体效果保证的更好

最后再抛一个暴论:

不存在通用的Agent能力,一定需要先找好细分领域场景,再不断优化技术,生态,打磨效果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值