Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

本文是LLM系列文章,针对《Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs》的翻译。

Ferret UI:基于多模态LLM的移动UI理解

摘要

多模态大型语言模型(MLLMs)的最新进展值得注意,然而,这些通用领域的MLLMs在理解用户界面(UI)屏幕并与之有效交互的能力方面往往不足。在本文中,我们介绍了Ferret UI,这是一种新的MLLM,旨在增强对移动UI屏幕的理解,具有参考、基础和推理功能。考虑到UI屏幕通常比自然图像显示出更细长的纵横比,并且包含更小的感兴趣对象(例如图标、文本),我们在Ferret之上加入了“任何分辨率”,以放大细节并利用增强的视觉功能。具体来说,每个屏幕基于原始纵横比被划分为2个子图像(即,纵向屏幕的水平划分和横向屏幕的垂直划分)。两个子图像在发送到LLM之前都是单独编码的。我们从广泛的基本UI任务中精心收集训练样本,如图标识别、查找文本和小部件列表。这些样本的格式符合说明,并带有区域注释,以便于精确参考和基础。为了增强模型的推理能力,我们进一步编译了高级任务的数据集,包括详细描述、感知/交互对话和功能推理。在经过精心策划的数据集培训后,Ferret UI表现出对UI屏幕的出色理解和执行开放式指令的能力。对于模型评估,我们建立了一个包括

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值