Agent 的复杂度到底在哪 && 以及Agent开发一些细碎的干货

做 Code Agent ,到底复杂度在哪里。我这里单单讲讲 code agent内核部分功能,不涉及交互以及高阶能力,大概是三个点:

1. 基础设施的构建,会话管理,token计算,规则文件,忽略文件管理等等 大概至少十几个模块。

2. 窗口长度管理,比如有朋友随便跑个300到1000次工具调用,这种级别的超长上下文你好如何应对,这几乎是个无止境的工作。

3. attention 管理,如何在越来越大的上下文情况下,保证任务能稳定的完成,比如任务聚焦的todo 的方案很好,还有工具数量的控制,system prompt里的内部流程的冲突等等,只基本上也是无止境的工作。

然后作为对比,我下面贴了 Manus 发的个内容,是比较扎实的细碎的干货,但是大部分trick 都能映射到我上面的三个部分中。

这里我再额外补充两点:

1. 我前面唯一没有提及的是 KVCache,但是如果看过我做的 RAG,就知道我去年的时候就讲KV Cache h缓存命中以及,prefill/decoding 的极致用到特别极致了。auto-coder.RAG 在 V3的kv cache缓存命中率大概可以节约2/3左右的成本。另外值得一提的是,Agentic 范式天然是有高概率的cache命中率的,但是随着 Agent 的复杂度巨大上升,尤其是上下文管理,比如做裁剪,必然会导致中间环节出现多次缓存失效,这里就需要很好的balance了。

2.还有一个小细节,Manus 能提及对工具做屏蔽而非移除这部分,大概方案是用到了decoding阶段,如果大模型输出某个工具时,强制降低他的概率,这种办法在结构化输出(比如输出json等)尝尝会用到。但是从工程角度而言,大部分人的做法是直接拿掉工具的定义,这种做法确实会造成幻觉(你的对话里已经有这个工具之前的使用了),要么你把会话里的相关的工具调用都裁剪掉,或者用我提供的办法:当一个工具不再可用,简单让工具返回一个不可用信息,表示当前阶段该工具不在可用,效果其实比前面的都会好。

-------

首先需要围绕 KV 缓存进行设计

 KV 缓存命中率是生产阶段 AI 代理中最重要的指标,它直接影响延迟和成本。

在 Agent 任务中预填充和解码之间的比例在代理中相比聊天机器人显得极为不平衡。

相同前缀的上下文可以利用 KV-cache,这大大减少了首次生成标记时间(TTFT)和推理成本,比如 Claude Sonnet 可以相差 10 倍。

简单解释一下 KV Caching:

KV Caching(Key-Value 缓存)是指在生成式 Transformer(如 GPT、T5 等模型的解码器部分)中,将每一步生成时计算得到的 Key(K)和 Value(V)矩阵保存下来。这样,在生成下一个 token 时,模型只需要计算新 token 的 Key 和 Value,并与之前缓存的内容一起用于注意力计算,而不必每次都重复计算所有历史 token 的 Key 和 Value。

提高 KV-cache 命中率涉及几个关键做法:

1️⃣保持提示前缀稳定。由于 LLMs 的自回归特性,即使是单个标记的差异也会使该标记及其之后的缓存失效。一个常见错误是在系统提示开头包含时间戳——尤其是精确到秒的时间戳。虽然这样可以让模型告诉你当前时间,但也会大幅降低缓存命中率。

2️⃣使上下文仅追加。避免修改之前的操作或观察。确保序列化是确定性的。许多编程语言和库在序列化 JSON 对象时不保证键的顺序稳定,这可能会悄无声息地破坏缓存。

3️⃣在需要时明确标记缓存断点。一些模型提供商或推理框架不支持自动增量前缀缓存,而是需要在上下文中手动插入缓存断点。设置这些断点时,要考虑潜在的缓存过期问题,至少确保断点包含系统提示的结尾部分。

屏蔽而非移除工具

随着你的 Agent 功能越来越多,他的工具数量激增。最近 MCP 的流行更是火上浇油。模型更可能选择错误的动作或采取低效的路径。简而言之,你的重装代理反而变得更笨了。

除非绝对必要,避免在迭代过程中动态添加或移除工具。主要有两个原因:

1️⃣在大多数 LLMs 中,工具定义在序列化后位于上下文的前部,通常在系统提示之前或之后。因此,任何更改都会使所有后续动作和观察的 KV 缓存失效。

2️⃣当之前的动作和观察仍然引用当前上下文中不再定义的工具时,模型会感到困惑。如果没有受限解码,这通常会导致模式违规或幻觉动作。

Manus 使用了一个上下文感知的状态机来管理工具的可用性。它不是移除工具,而是在解码时屏蔽 Token 的 logits,以根据当前上下文防止(或强制)选择某些动作。

当用户提供新输入时,Manus 必须立即回复,而不是执行动作。还特意设计了带有一致前缀的动作名称——所有与浏览器相关的工具都以 browser_开头,命令行工具以 shell_开头。这使我们能够轻松地强制代理在特定状态下仅从某一组工具中选择,而无需使用有状态的 logits 处理器。

使用文件系统作为上下文

现代前沿的 LLMs 现在提供 128K 令牌或更多的上下文窗口。但在现实世界的代理场景中,这通常不够,有时甚至成为负担。

1️⃣观察数据可能非常庞大,尤其是当 Agent 与网页或 PDF 等非结构化数据交互时。很容易超出上下文限制。

2️⃣即使窗口技术上支持,模型性能在超过某个上下文长度后往往会下降。

3️⃣长输入代价高昂,即使使用前缀缓存也是如此。你仍然需要为传输和预填充的每个标记付费。

许多 Agent 系统会实施上下文截断或压缩策略。但过度激进的压缩不可避免地导致信息丢失。从逻辑角度来看,任何不可逆的压缩都存在风险。

将文件系统视为 Manus 中的终极上下文:它大小无限,具有持久性,并且可以由代理自身直接操作。模型学会按需写入和读取文件——不仅将文件系统用作存储,更作为结构化的外部化记忆。

Manus 的压缩策略始终设计为可恢复的。例如,只要保留网页的 URL,就可以从上下文中删除网页内容;只要沙箱中仍有文档路径,就可以省略文档内容。

通过复述操控注意力

在处理复杂任务时,它倾向于创建一个 todo .md 文件,并随着任务的推进逐步更新,勾选已完成的事项。

一个典型任务平均需要大约 50 次工具调用。这是一个很长的循环——由于 Manus 依赖 LLMs 进行决策,它容易偏离主题或忘记早期目标,尤其是在长上下文或复杂任务中。 

通过不断重写待办事项列表,Manus 将其目标念到上下文的末尾。这将全局计划推入模型的近期注意范围,避免了“中途丢失”问题并减少了目标不一致。

保留错误内容

语言模型会产生幻觉,环境会返回错误,外部工具会出现异常,意想不到的边缘情况随时都会出现。在多步骤任务中,失败不是例外;它是循环的一部分。

一个常见的冲动是隐藏这些错误:清理痕迹,重试操作,或者重置模型状态。抹去失败就抹去了证据。而没有证据,模型就无法适应。

改善智能体行为的最有效方法之一看似简单:在上下文中保留错误的路径。当模型看到失败的操作——以及由此产生的观察结果或堆栈跟踪时——它会隐式地更新其内部信念。这会使其先验远离类似的操作,减少重复同样错误的可能性。

不要被秒杀

少样本提示是提升 LLM 输出效果的常用技术。但在智能体系统中,它可能以微妙的方式适得其反。

语言模型是出色的模仿者;它们会模仿上下文中的行为模式。如果你的上下文充满了类似的过去行动-观察对,模型往往会遵循这种模式,即使这已不再是最优选择。

Manus 在行动和观察中引入少量结构化的变化——不同的序列化模板、替代措辞、顺序或格式上的细微噪声。这种受控的随机性有助于打破模式,调整模型的注意力。

成都市作为中国西部地区具有战略地位的核心都市,其人口的空间分布状况对于城市规划、社会经济发展及公共资源配置等研究具有基础性数据价值。本文聚焦于2019年度成都市人口分布的空间数据集,该数据以矢量格式存储,属于地理信息系统中常用的数据交换形式。以下将对数据集内容及其相关技术要点进行系统阐述。 Shapefile 是一种由 Esri 公司提出的开放型地理空间数据格式,用于记录点、线、面等几何要素。该格式通常由一组相互关联的文件构成,主要包括存储几何信息的 SHP 文件、记录属性信息的 DBF 文件、定义坐标系统的 PRJ 文件以及提供快速检索功能的 SHX 文件。 1. **DBF 文件**:该文件以 dBase 表格形式保存与各地理要素相关联的属性信息,例如各区域的人口统计数值、行政区划名称及编码等。这类表格结构便于在各类 GIS 平台中进行查询与编辑。 2. **PRJ 文件**:此文件明确了数据所采用的空间参考系统。本数据集基于 WGS84 地理坐标系,该坐标系在全球范围内广泛应用于定位与空间分析,有助于实现跨区域数据的准确整合。 3. **SHP 文件**:该文件存储成都市各区(县)的几何边界,以多边形要素表示。每个多边形均配有唯一标识符,可与属性表中的相应记录关联,实现空间数据与统计数据的联结。 4. **SHX 文件**:作为形状索引文件,它提升了在大型数据集中定位特定几何对象的效率,支持快速读取与显示。 基于上述数据,可开展以下几类空间分析: - **人口密度评估**:结合各区域面积与对应人口数,计算并比较人口密度,识别高密度与低密度区域。 - **空间集聚识别**:运用热点分析(如 Getis-Ord Gi* 统计)或聚类算法(如 DBSCAN),探测人口在空间上的聚集特征。 - **空间相关性检验**:通过莫兰指数等空间自相关方法,分析人口分布是否呈现显著的空间关联模式。 - **多要素叠加分析**:将人口分布数据与地形、交通网络、环境指标等其他地理图层进行叠加,探究自然与人文因素对人口布局的影响机制。 2019 年成都市人口空间数据集为深入解析城市人口格局、优化国土空间规划及完善公共服务体系提供了重要的数据基础。借助地理信息系统工具,可开展多尺度、多维度的定量分析,从而为城市管理与学术研究提供科学依据。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
【顶级EI复现】计及连锁故障传播路径的电力系统 N-k 多阶段双层优化及故障场景筛选模型(Matlab代码实现)内容概要:本文介绍了名为《【顶级EI复现】计及连锁故障传播路径的电力系统 N-k 多阶段双层优化及故障场景筛选模型(Matlab代码实现)》的技术资源,重点围绕电力系统中连锁故障的传播路径展开研究,提出了一种N-k多阶段双层优化模型,并结合故障场景筛选方法,用于提升电力系统在复杂故障条件下的安全性与鲁棒性。该模型通过Matlab代码实现,具备较强的工程应用价值和学术参考意义,适用于电力系统风险评估、脆弱性分析及预防控制策略设计等场景。文中还列举了大量相关的科研技术支持方向,涵盖智能优化算法、机器学习、路径规划、信号处理、电力系统管理等多个领域,展示了广泛的仿真与复现能力。; 适合人群:具备电力系统、自动化、电气工程等相关背景,熟悉Matlab编程,有一定科研基础的研究生、高校教师及工程技术人员。; 使用场景及目标:①用于电力系统连锁故障建模与风险评估研究;②支撑高水平论文(如EI/SCI)的模型复现与算法验证;③为电网安全分析、故障传播防控提供优化决策工具;④结合YALMIP等工具进行数学规划求解,提升科研效率。; 阅读建议:建议读者结合提供的网盘资源,下载完整代码与案例进行实践操作,重点关注双层优化结构与场景筛选逻辑的设计思路,同时可参考文档中提及的其他复现案例拓展研究视野。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值