UI Agents（智能体）技术综述

原创

已于 2024-12-14 23:29:28 修改 · 1.5k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2024-12-14 23:05:12 首次发布

一、UI Agents技术概述

UI Agents 技术利用大模型技术（VLM / LLM）实现智能体对手机或电脑的自动操作，模拟人类行为完成指定任务，涵盖 Web GUI 和 Mobile GUI 等多种应用场景，甚至与 Embodied Navigation 中的 Vision Language Navigation（VLN）任务也有相似之处。

UI Agents的定义与示例

UI Agents 的核心在于智能体能够模拟人类操作，自动执行任务。例如，当我们下达“微信给小明发送一条消息：‘吃了吗？’”这样的指令时，UI Agents 会像人类一样理解任务，然后在手机或电脑上执行一系列操作，如打开微信、找到小明的聊天窗口、输入消息并发送。这一过程涉及到对UI界面的感知、理解以及精确操作，其本质是一个 Partially Observable Markov Decision Process (POMDP) 问题，智能体无法观察到所有的状态信息，需要根据当前可观察到的状态（如UI截图和对应的XML）做出决策，输出如“CLICK(100, 200)”这样的操作指令，其中“CLICK”为动作名称，“(100, 200)”为动作参数，即点击的坐标。

UI Agents面临的独特挑战

尽管 UI Agents 前景广阔，但在实际应用中面临诸多挑战。首先是序列决策问题，其收益具有延迟性，这意味着智能体在执行任务过程中，可能无法立即知晓当前操作的有效性，直到任务完成才能确定最终收益。其次，网站和应用程序的频繁更新导致在线观测结果与离线数据不一致，给智能体的学习和决策带来困难。此外，各种不可预测的干扰项，如弹出广告、登录请求以及搜索结果的随机顺序等，都会影响智能体的正常操作。技术方面，网页加载不完整或对某些网站的临时访问受限等问题也时有发生，这些都对 UI Agents 的性能和稳定性提出了更高要求。