CAM - GUI:移动图形用户界面上的对话式助手
1. 引言
智能助手在手机和电脑中被广泛使用,它们主要基于任务导向对话(TOD)系统。其工作流程通常是:先通过语音或文本输入获取用户命令并提取有用信息,结合历史信息调用后端 API 获取信息或执行设备操作,最后根据结果生成响应。
然而,这一过程依赖电子设备制造商和软件开发者共同开发的 API,对于大量第三方应用而言,开发 API 既耗费人力又耗时,且难以应对软件和系统的快速迭代迁移。此外,还有一些基于第三方应用网站的功能,其控制过程与安装应用类似,但更便捷。
为了给视障群体和老年用户提供更广泛的支持,像 TalkBack 和 Narrator 这样的屏幕阅读器服务可以读出屏幕上显示的内容。具体来说,安卓系统上的屏幕阅读器应用(包括 TalkBack 和上述智能助手)通过无障碍服务(Accessibility Service)或安卓调试桥(ADB)来理解现有内容。它们通过多个 API 收集当前界面的布局信息(视图层次结构,VH)和截图,分析不同组件的类别、功能和含义,引导用户理解界面内容。但由于从 VH 获取的组件描述等信息由软件开发人员填写,不能保证这些描述准确一致,甚至存在缺失情况,因此需要截图的视觉信息来辅助。
图形用户界面(GUI)是人们获取信息和与手机、电脑等智能设备交互的最重要工具。应用程序和网站的大量信息通过图像、文本和动画呈现在屏幕上。用户根据这些已知信息决定下一个命令,并通过点击、长按和拖动等操作执行下一步。
如果智能代理能够模拟人类用户获取和理解信息的方式,并以与用户相同的方式与设备交互,那么智能手机助手将拥有更广泛的应用场景和更强大的性能。为此,我们开发了一个由 MET
超级会员免费看
订阅专栏 解锁全文
41

被折叠的 条评论
为什么被折叠?



