Recon-Act：一种通过网页侦察、工具生成与任务执行实现自我演进的多智能体浏览器使用系统

大家读完觉得有帮助记得关注和点赞！！！

图1：VisualWebArena数据集上的成功率（左图）虽然与人类性能仍有显著差距，但Recon-Act达到了36.48%的成功率，优于其他自动化智能体（Gu et al., 2025a; Koh et al., 2024b; Yu et al., 2025; Koh et al., 2024a）。VisualWebArena上不同域的平均步数（右图）尽管需要适中的步数，但Recon-Act以极少的自我校正动作实现了稳定的网页导航。其他步数数据来自Gu et al. (2025a)。

1 引言

最近，由OpenAI等人（2024）；Bai等人（2023；2025）；Wang等人（2024；2023）；Chen等人（2024b；a；2025）；Hong等人（2024）提出的多模态大语言模型（MLLM）在视觉理解、长上下文推理和原生工具使用能力方面取得了显著进展，为自主浏览器使用智能体奠定了基础。然而，在现实世界的网页环境中，多轮次和长轨迹任务仍然受到脆弱工具编排和在陌生环境中试错问题的困扰。例如，在Koh等人（2024a）提出的反映真实浏览器使用需求的数据集上，几个最先进的MLLM仍然远未达到人类性能。最近的研究提出了改进复杂任务浏览器使用能力的方法。然而，一些基于GUI的研究（Liu等人，2025；Gu等人，2025b；Ye等人，2025；Lian等人，2025）尚未专门为浏览器环境设计。动态规划方法（Koh等人，2024b；Yu等人，2025）可以自主探索解决路径，但通常需要大量模拟来识别最优动作，导致长轨迹（Yu等人，2025）。

纵观全局，Wang等人（2025）将智能体架构设定为四个组成部分：档案、记忆、规划和行动，其中最后一个包括调用外部工具的能力。基于我们对浏览器使用特定数据集（Koh等人，2024a；Deng等人，2023；Zheng等人，2024）的分析，一方面我们发现当前的智能体在理解和推理能力方面仍然有限。另一方面，特别是对于基于浏览器的应用，它们将受益于用于获取任务相关信息或完成某些关键操作的外部工具。通过外部工具增强MLLM获取信息的能力可以缓解参数化知识的限制，进而抑制幻觉（Qu等人，2024；Wang等人，2025）。越来越多的研究在工具学习（He等人，2025；Shi等人，2025；Qin等人，2023；Schick等人，2023）的范畴下推进这一议程。随着大模型编码能力的快速增长（Li等人，2023；Lozhkov等人，2024；Team，2025；Hui等人，2024；Guo等人，2024；Zhu等人，2024），我们考虑直接让模型合成它认为最合适的工具，并在此基础上制定最合适的问题解决方案。考虑到浏览器环境的信息密度，其中只有一部分观察与特定任务相关，我们设计工具来返回经过提炼的、对任务关键的信息，并在适当的时候直接产生可执行的动作。人类用户在面对不熟悉的网页时，通常会先浏览页面以获取整体概览，然后再采取行动。受此启发，我们寻求通过有限数量的动作来提取有用信息，以指导后续执行。我们将这种信息探索和提炼过程定义为"侦察"操作，当任务无法正常执行或看似不可行时，在环境中执行探索性动作并收集额外的观察数据。基于获得的洞察，我们向任务执行智能体提供建议，以帮助其完成任务。此类建议可以采取提示的形式，也可以是解决特定上下文中特定问题的专用工具。我们将这些统一为广义工具。Xie等人（2025）建立了一个多智能体框架，由一个主要执行器智能体和一个按需监护智能体组成，该监护智能体进行监督、验证推理和纠正错误以实现进化。我们提出了一个类似的双元框架，其中我们将"监护者"替换为"侦察团队"。侦察团队以提示或专用工具的形式提供可操作的指导，两者都封装为广义工具。

本文提出Recon-Act，一个专门为浏览器使用任务设计的自我进化多智能体系统（MAS），该系统将广义上的工具（包括基于规则的工具和工具智能体）置于迭代过程的核心。正负轨迹作为反馈来源。通过对这些实例进行对比分析，系统推导出反馈信号，并建立一个闭环的数据-工具-行动-反馈进化管道。Recon-Act使智能体能够在陌生环境中获得针对性的线索和帮助，从而更有效地完成通用任务。

我们的系统可以简要描述为一个由侦察团队和行动团队组成的多智能体系统。在前者内部，我们定义了两个智能体，即分析员和编码员。而行动团队则包括一个主控者、一个工具管理器和一执行智能体。我们设计了一系列分阶段逐步实施的假设和实验，通过6个级别逐步实现该架构的各个组件：

第1级：除执行智能体外，所有组件均由人工操作。
第2级：主控者和执行智能体由视觉语言模型（VLM）驱动；所有其他组件仍由人工操作。
第3级：主控者、执行智能体和编码员由大语言模型/视觉语言模型（LLM/VLM）驱动；其余组件由人工操作。
第4级：除分析员外，所有组件均由LLM/VLM驱动。
第5级：所有智能体均由LLM/VLM驱动。
第6级：一个可以完成所有任务的端到端模型。

由于问题的难度和当前LLM/VLM推理能力的限制，我们的实现达到了第3级：分析员和工具管理器仍保留一定程度的人机回环干预。

本文的主要贡献包括：
• 我们提出了Recon-Act，一个以"侦察-行动"双团队协作为核心的自我进化浏览器使用智能体框架。我们将浏览器上下文中的"侦察操作"形式化，通过少量探索性动作从信息密集的网页中提炼关键观察，并提高长期、多轮任务的可解决性和效率。
• 在第3级配置下，我们的系统在VisualWebArena数据集上实现了最先进的性能。

2 相关工作

2.1 具备浏览器使用能力的GUI智能体

一些研究利用更通用的GUI智能体范式来解决包括浏览器使用、GUI操作、理解等任务。PC-Agent（Liu等人，2025）将桌面控制分解为三级多智能体层次结构，并辅以主动感知模块。UI-Venus（Gu等人，2025b）通过自我进化轨迹历史对齐和稀疏动作增强来减轻推理漂移并放大罕见关键动作，同时结合一个产生更清晰 grounding 和导航集的数据管理流程。GUI-Owl（Ye等人，2025）训练了一个统一感知、推理和行动的单一模型，在真实任务上进行RL对齐，并作为共享观察专家部署在Mobile-Agent-v3中，用于长周期移动工作流。UI-AGILE（Lian等人，2025）使用连续中心奖励、"简单思考"损失和裁剪重采样来进行监督微调（SFT），以对抗稀疏奖励。在测试时，它从分解的高分辨率裁剪图中拼接VLM选择的候选区域。ViGoRL（Sarch等人，2025b）是一种基于强化学习的VLM，它将每个推理步骤锚定到特定的视觉坐标，产生空间 grounded 的轨迹来引导注意力，并通过一种新颖的多轮次RL框架动态缩放到预测区域进行细粒度探索。ICAL（Sarch等人，2025a）提出了一种上下文内抽象学习框架，使VLM智能体能够通过自我反思将次优演示转化为高质量训练数据，在类似环境中执行时，通过人类反馈迭代优化广义策略和动作标注。与上述研究不同，我们认为在浏览器环境中，不仅应关注其独特的动作空间，更重要的是其环境特定的观察空间，因为这样做可以显著提高执行性能。这一洞察导致了观察生成工具的初步构想。

2.2 动态规划方法

最近的研究采用了动态规划过程。在每个决策步骤，智能体生成多个候选（动作、中间思考或子计划），使用一个或多个评估器（例如，价值函数、奖励模型或基于LLM的自我评估或辩论）对它们进行评分，选择最佳候选执行，并在必要时进行迭代。我们统称这类方法为动态规划方法，它们共享相似的流程：候选生成、评估或评分、选择或回溯、执行。ExAct（Yu等人，2025）通过反思重用和多智能体辩论来增强MCTS，然后将完整搜索循环蒸馏到模型中。（Koh等人，2024b）对由LM价值函数评分的即时接口图执行最佳优先搜索，在真实网站上产生了首次经过验证的性能提升。Agent Q（Putta等人，2024）将网页上的MCTS与LM自我批评相结合，将LLM生成的步骤级排名转化为密集奖励，从而在没有人工标注的情况下指导探索。WebDreamer（Gu等人，2025a）让LLM为每个候选动作"构想"一个下一状态描述，执行最有希望的动作，并迭代直到自我判断成功。在这些研究中，Recon-Act以其以工具为中心、侦察驱动的设计而著称：它在进展停滞时启动针对性探索，将 resulting 观察提炼为广义工具（提示或专用工具智能体），并通过正负实例的对比分析来闭环，以工具的形式改进策略。这为信息密集的浏览器环境中的自我进化提供了一条实用路径，与智能体RL的进展互补。

2.3 智能体与工具

图 2：系统架构。该系统包含两个协同工作的团队：侦察团队（Reconnaissance Team）和行动团队（Action Team）。训练工作流程如下所述。用户查询（User Query）连同浏览器上下文（Browser Context）首先由主控智能体（Master Agent）接收，该智能体会调用（Calling）合适的智能体或工具。随后，一个路由模块（Router）会选择（Select）合适的工具或成员智能体来获取答案。一个选择模块（Selection）将各模块的输出整合（Consolidates）成一个最终动作（Final Action），该动作通过 Playwright API 在浏览器（Browser Env）中执行（Action）并产生轨迹（Trajectories）。评估器（Evaluator）会审查该轨迹并将评估结果写回（Writes）训练数据集（Training Dataset）。如果轨迹仍然不正确，侦察团队会使用预设的侦察工具（Preset Recon Tools）来收集额外信息。其分析师（Analyst）会制定一个计划，然后编码员（Coder）实现一个新工具。这个新工具将被注册（Registry）并在线部署（Deployed online）到行动团队的工具管理器（Tool Manager）中，此后后续任务将使用增强后的工具集（Augmented Toolset）继续进行。通过这种方式，轨迹、评估和训练形成了一个闭环的、迭代改进的循环（Closed-loop, iterative improvement cycle）。

在更广泛的智能体和工具主题内，进展主要沿着两个方向推进：工具学习，即提高模型选择和使用工具的能力；以及工具生成（在本文框架内对应于代码生成）。GenTool（He等人，2025）合成了两种类型的训练数据：针对没有合适工具的查询的零到一泛化，以及针对适合使用优化工具的查询的弱到强泛化。它进一步提出了一个两阶段微调程序，先优化工具排序，然后细化工具选择，以增强工具使用能力。AutoTools（Shi等人，2025）预先将工具封装为可调用函数，并验证语法和运行时正确性。在推理时，它生成类似代码的调用逻辑来执行工具调用，并提供错误反馈。ToolLLM（Qin等人，2023）使用LLM构建数据集，并采用一个核心算法为基于DFS的决策树的自动评估器来微调模型。Toolformer（Schick等人，2023）扩展现有语料库以推导API调用数据集，并通过微调使模型学会如何使用外部工具。在代码生成方面，Li等人（2023）；Lozhkov等人（2024）；Team（2025）；Hui等人（2024）；Guo等人（2024）；Zhu等人（2024）利用大规模训练数据在一系列模型尺寸上训练专门的编码模型。

3 方法论

在本节中，我们介绍Recon-Act多智能体管道在训练和推理时的流程，如图2所示。

我们的管道包含两个集成团队，即侦察团队和行动团队。根据其角色规范，侦察团队基于其通过侦察收集的情报提供需求和建议。这些情报包括来自行动团队与环境交互的错误轨迹、训练集中的成功轨迹，以及沿轨迹的浏览器上下文。侦察团队识别失败原因，并创建或更新一个对行动团队解决任务有帮助的工具。一旦此类工具被注册，行动团队立即接收其规范，从而获得实时调用它们的能力。

在训练阶段，侦察团队分析问题并逐步增量和更新工具集，从而逐步增强系统的跨任务泛化和决策能力。当发生工具添加或更新时，系统在训练集上执行一次推理过程以获得额外的轨迹。训练过程迭代进行，直到侦察团队无法再增量或更新工具集，或者连续几次工具更新后训练集准确率没有观察到改进，此时训练终止。

在推理阶段，只有行动团队执行任务，它可以调用预训练（自动生成）的工具来解决任务执行过程中遇到的典型问题。它充分利用可用动作来提高成功率，同时显著提高运行时效率。

3.1 侦察团队

对于侦察团队，我们预定义了一组来自浏览器使用场景中真实用户需求的冷启动查询，其中包含一个查询的成功和失败轨迹。它们针对常见网站并具有一定程度的通用性。关键的是，用于训练侦察团队的查询是系统当前无法解决的问题实例。这对于与成功轨迹一起建立反馈循环是必要的，没有它学习无法进行。

我们将侦察智能体设计为一个轻量级多智能体系统，包含两个组件：一个分析员和一个编码员，以及一个内置的侦察工具包。该工具包包括基本的网页观察工具，如获取URL、图像和SOM（标记集）观察（文本形式）等，这些工具支持页面结构解析、视觉线索提取和相关能力。分析员执行一定程度的信息压缩：以任务规范和评估器提供的错误类别为条件，它在步骤级别比较错误和成功轨迹，选择并调用适当的侦察工具，推断失败的根本原因，并提出补救策略。然后，编码员将这些需求和操作程序映射为可执行代码。结合工具注册机制，所有工具都遵循统一的参数模式和输出格式：它们接受潜在相关参数的超集并返回一个字符串。这种设计避免了针对每个任务的参数定制，从而降低了编码复杂性。

侦察团队仅在训练期间活跃，训练以迭代的"展开、评估、生成、更新"周期进行。首先，我们执行冷启动查询以获得新的失败轨迹。这些失败轨迹，连同可用的成功轨迹和当前浏览器上下文，被提供给分析员。通过对比性的步骤级分析，分析员综合出工具规范。然后编码员生成工具并提交注册请求。一旦工具管理器完成注册，行动团队执行完整的推理回合。在推理过程中，行动团队产生的每个动作都通过Playwright API在浏览器中执行。回合结束后，如果评估器判断 resulting 轨迹正确，则该实例的训练终止。

3.2 行动团队

行动团队包括三个组件：一个主控者、一个工具管理器和一执行智能体。主控者解释用户查询和浏览器上下文以识别当前子任务，并决定是否调用工具以及调用哪个工具。工具管理器本质上充当一个编码智能体。当侦察团队发出工具注册请求时，工具管理器根据完整条件和工具的实现在添加新工具或更新现有工具之间做出决定。更新的工具包含条件逻辑，以避免改变先前工具调用的行为。这些更新仅在训练阶段激活，在推理时被禁用。在推理时，为了确保工具的有效性和整个系统的场景泛化能力，我们添加了一个硬编码的工具路由机制。执行智能体充当一个全面的回退方案：它可以生成整个动作空间中的一个动作，从而保证有默认输出。如果工具调用失败或未调用任何工具，则最终动作取自执行智能体的输出。工具可以以两种模式注册：提示模式和决策模式。提示模式工具（确定性较低或上下文敏感性较高）将侦察信号返回给执行智能体以改进任务完成，而决策模式工具（行为持续稳定）直接从动作空间发出一个动作。决策模式的输出具有权威性。每当决策工具产生一个动作时，系统都会按指定执行它。

在推理回合开始时，接收到初始查询和浏览器上下文后，主控者首先解释查询和上下文，并选择一个要调用的工具。然后工具路由器分发并执行相应的工具。如果路由的工具处于提示模式，系统随后会执行执行智能体以获得最终动作。如果路由的工具处于决策模式，则其动作直接返回。发出的动作与浏览器环境交互以更新状态，为下一步产生新的上下文。

4 实验

在本节中，我们进行了一些实验来评估我们提出的Recon-Act的性能。

表1：基线LLM和VLM智能体在VisualWebArena上的成功率

论文	方法	模型	成功率(↑)(%)
			分类广告	Reddit	购物	总体
VWA1	多模态(SoM)图像+标题+SoM	Gemini-Pro	3.42	3.81	7.73	5.71
VWA1	多模态图像+标题+Acc.Tree	Gemini-Pro	3.42	4.29	8.15	6.04
VWA1	纯文本Acc.Tree	GPT-4	5.56	4.76	9.23	7.25
VWA1	标题增强Acc.Tree+标题	GPT-4+BLIP-2-T5XL	8.55	8.57	16.74	12.75
VWA1	多模态图像+标题+Acc.Tree	GPT-4V	8.12	12.38	19.74	15.05
VWA1	多模态(SoM)图像+标题+SoM	GPT-4V	9.83	17.14	19.31	16.37
WebDreamer2-		Qwen2-VL-7B	17.9	11.1	20.2	17.20
WebDreamer2-		Qwen2-VL-72B	19.6	15.9	24.6	21.00
WebDreamer2-		Dreamer-7B	21.4	15.9	25.4	21.90
ICAL3-		GPT-4V	--	--	--	22.70
WebDreamer2-		Dreamer-7B+领域内	25.0	15.9	26.3	23.20
WebDreamer2-		GPT-4o	23.2	17.5	26.3	23.20
ICAL3-		GPT-4o	--	--	--	23.40
TreeSearch4	搜索+SoM	GPT-4o	26.5	20.5	29.0	26.40
ExAct5	MCTSSASoM+标题+图像	GPT-4o	37.6	23.8	29.4	30.22
ExAct5	R-MCTSSASoM+标题+图像	GPT-4o	40.2	25.2	31.9	32.53
ExAct5	R-MCTSMADSoM+标题+图像	GPT-4o	41.0	28.7	32.3	33.74
ours	Recon-Act	GPT-5-Chat	39.32	27.14	39.27	36.48
Human		--	91.07	87.10	88.39	88.70

1Koh等人 (2024a). 2Gu等人 (2025a). 3Sarch等人 (2025a). 4Koh等人 (2024b). 5Yu等人 (2025).

4.1 数据集和评估指标

我们在VisualWebArena（Koh等人，2024a）数据集上评估了我们的方法，该数据集是一个用于评估能够理解并基于网页视觉内容采取行动的智能体的基准。它针对需要联合推理文本和图像的现实任务，例如在分类广告网站上选择价格合理的二手车，或在各网站间比较指定产品的卖家和最低价格。该数据集包含约910个查询，涵盖三个领域：分类广告、购物和Reddit论坛。其评估支持多个标准：精确匹配（预测必须与参考完全匹配）、必须包含（预测的关键点必须被参考覆盖）、语义等价（由大语言模型判断）、禁止内容检查（输出中出现任何禁止项即构成失败）以及视觉问答式评估以确定目标完成情况，辅以使用结构相似性指数（SSIM）的模糊图像匹配来评估捕获或定位图像的接近度。

4.2 主要结果

VisualWebArena数据集上的结果呈现在表1中。我们实现了36.48%的总体成功率，比之前的最高水平（Yu等人，2025）高出2.74%。在子领域方面，我们在购物领域达到39.27%，显著优于之前的最佳水平32.30%（+6.97%）。在分类广告和Reddit上，我们分别仅比当前基线（41.00%和28.70%）低1.68%和1.56%。与早期方法如Koh等人（2024b）；Gu等人（2025a）；Sarch等人（2025a）相比，我们的总体改进通常超过10%。虽然与人类性能仍有差距，但这些结果使Recon-Act成为该基准测试上的最新最先进技术。

4.3 实施细节

我们的系统没有像Gu等人（2025a）那样纳入基于随机游走的自主探索。相反，根据我们目标数据集的覆盖范围指导，我们手动编写了一个小型训练集，每个领域少于10个示例。我们认为随机游走探索倾向于产生过于庞大且具有大量冗余的语料库，这与我们的效率和精选目标不一致。基于训练数据和第3级配置，我们总共实现了5个智能体（作为2个团队）和11个工具，总结在表2和表3中。在这些智能体中，编码员、主控者和执行智能体由大模型驱动，而分析员和工具管理器由人工驱动。

表2：Recon-Act管道中的智能体

团队	智能体名称	驱动者	功能
侦察	分析员	人工	在步骤级别比较轨迹，调用适当的侦察工具，推断失败原因并提出补救策略
	编码员	GPT-5-Chat	将补救策略转化为工具代码
行动	主控者	GPT-5-Chat	解释查询和上下文，并选择要调用的工具
	工具管理器	人工	决定是添加新工具还是更新现有工具，并使用条件逻辑更新工具
	执行智能体	GPT-5-Chat	生成默认动作

表3：Recon-Act创建的工具

工具名称*	类型	功能（描述）
AuthorFinder	决策	当您处于帖子详情页或评论页时，可以找到作者的所有帖子并转到作者页面的工具
CategoryGuide	决策	当您处于购物网站时，可以引导您到特定分类页面的工具，只能在购物网站上调用
ClassifiedsPriceSorter	决策	可以根据意图对分类广告网站上的物品进行排序的工具，只能在分类广告网站上调用，应在每次操作后调用
DownVoter	决策	当您处于帖子详情页或评论页时，会对当前帖子进行点踩的工具
ImageSearcher	决策	可以在Reddit上找到与输入图像最相似的帖子并转到其详情页和评论页的工具，只能在Reddit网站上调用
ShoppingImageFinder	决策	可以找到所需图像并转到其详情页的工具
ShoppingPriceSorter	决策	可以根据意图对购物网站上的物品进行排序的工具，只能在产品列表页调用
SubRedditNavigator	决策	当您处于帖子详情页或评论页时，可以导航到子版块页面的工具
UpVoter	决策	当您处于帖子详情页或评论页时，会对当前帖子进行点赞的工具
PostTimeFinder	提示	可以找到帖子发布时间（当您处于帖子详情页或评论页时）的工具
RedditImageDescriptor	提示	可以返回帖子图像描述（当您处于帖子详情页或评论页时）的工具，只能在Reddit网站上调用

工具名称可能有点混乱，但我们保留了所有原始名称，并且描述与我们提供给主控者的完全一致。

主控者和执行器纯粹基于提示操作。对于侦察团队中的编码员，我们固定了输入-输出接口和基本代码结构，以确保能够以高可行性生成工具代码。

对于侦察团队中的分析员，我们需要提示模型将其推理基于具体的解决过程。我们倾向于引导模型直接导航到目标动作（例如"goto"操作），而不是依赖可靠性较低的基于点击的探索。出于同样的原因，我们还提示设计排序器和图像搜索工具，在可能的情况下通过"goto"动作操作。

对于行动团队中的工具管理器，注册时发生的代码合并是最困难的工作。自动生成的工具通常是狭窄和碎片化的。例如，为一个只需要找到最便宜物品的网站创建的价格排序器将只包含一个"最便宜"分支，而随后请求最昂贵物品的查询就会失败。如果不进行整合，这种专业化会导致工具激增。此外，因为我们的智能体不会一次性摄取整个页面上下文，所以工具的范围可能定义模糊：一个名为"价格排序器"的工具可能只支持从低到高排序；一个只有点踩功能的Reddit投票工具可能被简单地标记为"投票器"。基于上述洞察，目前人类参与命名工具、调整功能分支以及在适当的地方合并工具。

需要注意的是，因为每个网站都有其独特的特性，我们特别让侦察团队在编写工具时注意特定网站，这确保了在调用类似工具时不会产生混淆。

5 结论

我们介绍了Recon-Act，一个以工具为中心、自我进化的浏览器交互系统，它依赖于侦察-行动双团队协作。我们将浏览器内侦察形式化，使智能体能够通过少量探索性动作从信息密集的页面中提炼关键情报，并通过正负实例的对比分析生成反馈，从而建立一个跨越数据、工具、行动和反馈的闭环进化管道。该系统采用分阶段实验范式逐步实现能力，目前达到第3级：分析员和工具管理器保留人机协作，而其余组件由视觉语言模型驱动。在此配置下，Recon-Act在VisualWebArena上设定了新的最先进水平，展示了在陌生环境中自主获取线索、调用工具和完成复杂多轮任务的有效性和效率。

6 局限性与未来工作

为了实现超越第5级的智能，我们未来的工作将沿着以下方向进行：

提高自主性：目前的学习能力严重依赖于我们构建的训练数据，特别是成功轨迹的包含，使得这个训练过程类似于"监督"训练。我们计划提示模型进行随机游走式的自我探索，以生成额外的成功轨迹。这反过来将使训练集的构建更加自主。
推理和编码技能：为了从第3级进步到更高级别，并减少对人类分析和工具管理的依赖，我们必须进一步加强分析员和工具管理器组件。分析员封装了推理能力，而工具管理器反映了编码能力。对于分析员，我们打算收集一个有针对性的分析数据语料库，并用多样化的浏览器上下文对其进行训练，使其获得稳健的、上下文感知的分析技能。它不仅应给出与任务相关的见解，还应考虑降低任务本身难度的步骤，以使子任务更适合大模型。一个例子出现在分类广告网站上，由于图像尺寸小，图像定位步骤 consistently 选择错误的边界框。在冷启动轨迹的指导下，我们将呈现方式从列表视图切换到网格视图。网格布局放大了缩略图，从而降低了VLM解释图像的难度。此外，给定布局更改前后的URL，它应该发现从列表切换到网格不仅可以通过点击页面级切换按钮实现，还可以通过向URL附加固定模式的子路径直接到达相应的布局页面。这可以总结为一个工具，并在功能上描述为在图像过小时放大图像。对于工具管理器，瓶颈在于注册工作流中分支和迭代代码修改的复杂性，特别是通过功能分支维护现有功能和新引入功能之间的隔离。此外，主控智能体在调用工具时仍有一定的错误概率。如果我们再次考虑使子任务更适合大模型，通过合并工具的功能来减少需要调用的工具数量，可以在不提高主控者编排能力的情况下使编排更容易。我们将在未来通过类似的有针对性训练来解决这个问题。
扩展侦察能力：我们当前的侦察模块仅在一组固定的网站上成功运行，尚未推广到更广泛、更异构的网络环境。