本文是LLM系列文章,针对《Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs》的翻译。
摘要
多模态大型语言模型(MLLMs)的最新进展值得注意,然而,这些通用领域的MLLMs在理解用户界面(UI)屏幕并与之有效交互的能力方面往往不足。在本文中,我们介绍了Ferret UI,这是一种新的MLLM,旨在增强对移动UI屏幕的理解,具有参考、基础和推理功能。考虑到UI屏幕通常比自然图像显示出更细长的纵横比,并且包含更小的感兴趣对象(例如图标、文本),我们在Ferret之上加入了“任何分辨率”,以放大细节并利用增强的视觉功能。具体来说,每个屏幕基于原始纵横比被划分为2个子图像(即,纵向屏幕的水平划分和横向屏幕的垂直划分)。两个子图像在发送到LLM之前都是单独编码的。我们从广泛的基本UI任务中精心收集训练样本,如图标识别、查找文本和小部件列表。这些样本的格式符合说明,并带有区域注释,以便于精确参考和基础。为了增强模型的推理能力,我们进一步编译了高级任务的数据集,包括详细描述、感知/交互对话和功能推理。在经过精心策划的数据集培训后,Ferret UI表现出对UI屏幕的出色理解和执行开放式指令的能力。对于模型评估,我们建立了一个包括