一、UI Agents技术概述
UI Agents 技术利用大模型技术(VLM / LLM)实现智能体对手机或电脑的自动操作,模拟人类行为完成指定任务,涵盖 Web GUI 和 Mobile GUI 等多种应用场景,甚至与 Embodied Navigation 中的 Vision Language Navigation(VLN)任务也有相似之处。
UI Agents的定义与示例
UI Agents 的核心在于智能体能够模拟人类操作,自动执行任务。例如,当我们下达“微信给小明发送一条消息:‘吃了吗?’”
这样的指令时,UI Agents 会像人类一样理解任务,然后在手机或电脑上执行一系列操作,如打开微信、找到小明的聊天窗口、输入消息并发送。这一过程涉及到对UI界面的感知、理解以及精确操作,其本质是一个 Partially Observable Markov Decision Process (POMDP) 问题,智能体无法观察到所有的状态信息,需要根据当前可观察到的状态(如UI截图和对应的XML)做出决策,输出如“CLICK(100, 200)”
这样的操作指令,其中“CLICK
”为动作名称,“(100, 200)
”为动作参数,即点击的坐标。
UI Agents面临的独特挑战
尽管 UI Agents 前景广阔,但在实际应用中面临诸多挑战。首先是序列决策问题,其收益具有延迟性,这意味着智能体在执行任务过程中,可能无法立即知晓当前操作的有效性,直到任务完成才能确定最终收益。其次,网站和应用程序的频繁更新导致在线观测结果与离线数据不一致,给智能体的学习和决策带来困难。此外,各种不可预测的干扰项,如弹出广告、登录请求以及搜索结果的随机顺序等,都会影响智能体的正常操作。技术方面,网页加载不完整或对某些网站的临时访问受限等问题也时有发生,这些都对 UI Agents 的性能和稳定性提出了更高要求。
二、UI Agents技术路线
实现 UI Agents 主要涉及感知(Perception)、规划/决策(Planning/Decision)等关键环节,技术路线多样,包括基于Closed LLM、VLM等不同方式,各有优劣。
感知(Perception)技术
在 Perception 方法中,智能体通过截屏XML、截屏图片、OCR、Summarization、Icon Detection & Captioning 等技术,将 UI 截图转换为结构化信息,以便进行后续的规划和决策。
Closed LLM (Training-free)
这种方法先利用感知技术将当前状态转换为文本&#x