大语言模型--智能的图形界面Agent，研究与应用综述（未完待续）

最新推荐文章于 2025-05-20 10:45:34 发布

原创

最新推荐文章于 2025-05-20 10:45:34 发布 · 1.1k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

概述

图形用户界面（GUI）长期以来一直是人机交互的核心，提供了一种直观和视觉驱动的方式来访问数字系统并与之交互。

传统上，自动化GUI交互依赖于基于脚本或基于规则的方法，这些方法虽然对固定的工作流程有效，但缺乏动态、现实世界应用程序所需的灵活性和适应性。大型语言模型（LLM）的出现，特别是多模态模型的出现，开创了GUI自动化的新时代。

他们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。这为新一代“LLM大脑”GUI代理铺平了道路，这些代理能够解释复杂的GUI元素，并根据自然语言指令自主执行操作。这些代理代表了一种范式转变，使用户能够通过简单的对话命令执行复杂的多步骤任务。他们的应用程序跨越了网络导航、移动应用程序交互和桌面自动化，提供了一种革命性的用户体验，彻底改变了个人与软件的交互方式。

这一新兴领域正在迅速发展，在研究和工业方面都取得了重大进展。

为了对这一趋势有一个结构化的理解，本文对LLM大脑GUI代理进行了全面的调查，探索了它们的历史演变、核心组件和先进技术。我们解决了关键的研究问题，如现有的GUI代理框架、用于培训专业GUI代理的数据收集和利用、为GUI任务量身定制的大型动作模型的开发，以及评估其有效性所需的评估指标和基准。此外，我们还研究了由这些代理驱动的新兴应用程序。

通过详细分析，本次调查确定了关键的研究差距，并概述了该领域未来发展的路线图。通过巩固基础知识和最先进的发展，这项工作旨在指导研究人员和从业者克服挑战，释放LLM大脑GUI代理的全部潜力。我们预计，这项调查将既是构建LLM驱动的GUI代理的实用指南，也是推进这一快速发展领域研究的权威参考。

介绍

图形用户界面（GUI）一直是人机交互的基石，从根本上改变了用户在数字系统中的导航和操作方式。旨在使计算更加直观和易于访问，
GUI用视觉驱动、用户友好的环境取代了命令行界面（CLI）。通过使用图标、按钮、窗口和菜单，GUI使更广泛的用户能够使用简单的操作（如点击、打字和手势）与计算机进行交互。这一转变使计算访问民主化，即使是非技术用户也能有效地与复杂系统互动。然而，GUI经常为了可用性而牺牲效率，特别是在需要重复或多步骤交互的工作流程中，CLI可以
保持更精简。虽然GUI彻底改变了可用性，但它们的设计主要是为人类视觉交互量身定制的，这给自动化带来了重大挑战。GUI布局的多样性、动态性和平台特定性使得开发能够
适应各种环境。早期自动化GUI交互的努力主要依赖于基于脚本或基于规则的方法。虽然这些方法对预定义的工作流程有效，但本质上范围很窄，主要侧重于软件测试和机器人过程自动化（RPA）等任务。它们的刚性需要频繁的手动更新来适应新任务、GUI布局的变化或不断发展的工作流程，这限制了它们的可扩展性和多功能性。此外，这些方法缺乏支持动态、类人交互所需的复杂性，从而限制了它们在复杂或不可预测的场景中的适用性。

3.3 GUI自动化：工具、技术和挑战

自GUI在计算领域的早期发展以来，GUI自动化一直是研究和应用的关键领域。GUI自动化最初是为了提高软件测试效率而开发的，它侧重于在图形应用程序中模拟用户操作，如点击、文本输入和导航，以验证功能[28]。早期的GUI自动化工具旨在在静态界面上执行重复的测试用例[26]。这些方法简化了质量保证流程，确保了一致性并减少了手动测试时间。随着对数字解决方案需求的增长，GUI自动化已从测试扩展到其他应用程序，包括RPA[6]和人机交互（HCI）[94]。RPA利用GUI自动化在业务工作流程中复制人类行为，自动化日常任务以提高运营效率。同样，HCI研究采用GUI自动化来模拟用户行为，从而实现可用性评估和交互研究。在这两种情况下，自动化通过最大限度地减少重复任务和实现更大的系统适应性，显著提高了生产率和用户体验[95]，[96]。

传统的GUI自动化方法主要依赖于脚本和基于规则的框架[4]，[97]。基于脚本的自动化利用Python、Java和JavaScript等语言以编程方式控制GUI元素。这些脚本模拟用户在界面上的操作，通常使用基于web的自动化的Selenium[98]或桌面应用程序的AutoIt[99]和SikuliX[100]等工具。与此同时，基于规则的方法基于预定义的启发式方法进行操作，使用规则根据位置、颜色和文本标签等属性检测特定的GUI元素并与之交互[4]。虽然这些方法对可预测的静态工作流程有效[101]，但它们很难适应现代GUI的可变性，在现代GUI中，动态内容、响应式布局和用户驱动的更改使得维护严格的、基于规则的自动化变得具有挑战性[102]。

CV已成为解释GUI视觉方面的关键[33]、[103]、[104]，使自动化工具能够识别屏幕上的元素并与之交互，即使布局和设计发生了变化。CV技术允许GUI自动化系统通过分析屏幕截图和识别感兴趣的区域来检测和分类屏幕上的元素，如按钮、图标和文本字段[105]-[107]。光学字符识别（OCR）通过从图像中提取文本内容进一步增强了这种能力，使自动化系统能够准确地解释标签、错误消息和表单指令[108]。对象检测模型增加了鲁棒性，即使在视觉布局发生变化时，也允许自动化代理定位GUI元素[90]。通过整合CV，GUI自动化系统在动态环境中实现了更大的弹性和适应性。

尽管取得了进步，但传统的GUI自动化方法在处理当代界面的复杂性和可变性方面仍存在不足。今天的应用程序通常具有动态、自适应的元素，这些元素无法通过严格的脚本或基于规则的方法单独可靠地自动化[109]、[110]。现代界面越来越需要上下文感知[111]，例如处理屏幕上的文本、解释用户意图和识别视觉线索。这些需求揭示了现有自动化框架的局限性，以及对能够实时适应和上下文敏感响应的更灵活解决方案的需求。

LLMs为这些挑战提供了一个有前景的解决方案。凭借其理解自然语言、解释上下文和生成自适应脚本的能力，LLM可以实现更智能、更通用的GUI自动化[112]。它们处理复杂指令和从上下文中学习的能力使它们能够弥合静态、基于规则的方法与当代GUI的动态需求之间的差距[113]。通过将LLM与GUI代理集成，这些系统能够根据界面的当前状态动态生成脚本，提供传统方法无法实现的适应性和复杂性。LLM和GUI代理的结合为先进的、以用户为中心的自动化范式铺平了道路，该范式能够灵活地响应用户请求，并与复杂、不断发展的界面无缝交互。

5 以LLM为大脑的图形用户界面代理（LLM-BRAINED GUI AGENTS）: 基础和设计

本质上，LLM大脑GUI代理旨在处理以自然语言给出的用户指令或请求，通过屏幕截图或UI元素树解释GUI的当前状态，并执行模拟各种软件界面上人类交互的动作[17]。这些代理利用LLM复杂的自然语言理解、推理和生成能力，准确理解用户意图，评估GUI上下文，并在不同环境中自主参与应用程序，从而完成复杂的多步骤任务。这种集成使他们能够无缝地解释和响应用户请求，为GUI自动化带来适应性和智能性。
作为LLM代理的一种特殊类型，大多数当前的GUI代理采用类似的基础框架，集成了规划、内存、工具使用等核心组件，以及多代理协作等高级增强功能[45]。然而，每个组件都必须量身定制，以满足GUI代理的特定目标，从而确保跨各种应用程序环境的适应性和功能性。
在接下来的部分中，我们将深入概述每个组件，提供从头开始构建LLM驱动的GUI代理的实用指南和教程。这一全面的细分为创建有效和智能的GUI自动化系统提供了一本食谱，这些系统利用了LLM的功能。

5.1 架构和工作流

在图4中，我们展示了LLM大脑GUI代理的架构，展示了从用户输入到任务完成的操作序列。该架构由几个集成组件组成，每个组件都有助于代理根据用户提供的自然语言指令解释和执行任务。在收到用户请求后，代理遵循系统的工作流程，包括环境感知、即时工程、模型推理、动作执行和持续的内存利用，直到任务完全完成。一般来说，它由以下部分组成：
1）操作环境：该环境定义了代理的操作上下文，包括移动设备、web浏览器和Windows等桌面操作系统等平台。为了进行有意义的交互，代理通过屏幕截图、小部件树或其他捕获UI结构的方法感知环境的当前状态[152]。它持续监控每个动作影响的反馈，实时调整策略，以确保有效的任务进展。
2）提示工程：根据环境感知，代理构建详细的提示来指导LLM的推理[153]。此提示包含用户指令、处理的视觉数据（例如屏幕截图）、UI元素布局、属性以及与任务相关的任何其他上下文。这种结构化输入最大限度地提高了LLM生成与当前GUI状态一致的连贯、上下文感知响应的能力。
3）模型推理：构建的提示被传递给代理的推理核心LLM，LLM生成满足用户请求所需的一系列计划、行动和见解。该模型可以是通用LLM，也可以是使用GUI特定数据微调的专用模型，从而能够更细致地理解GUI交互、用户流和任务要求。
4）动作执行：基于模型的推理结果，代理识别任务执行所需的特定动作（如鼠标点击、键盘输入、触摸屏手势或API调用）[13]。代理中的执行器将这些高级指令转换为可操作的命令，直接影响GUI，有效地模拟不同应用程序和设备之间的类人交互。
5）内存：对于多步骤任务，代理维护一个内部内存来跟踪之前的操作、任务进度和环境状态[50]。这种记忆确保了整个复杂工作流的一致性，因为代理可以参考前面的步骤并相应地调整

最低0.47元/天解锁文章