基于计算机视觉的屏幕阅读器稳健框架
1. 引言
现代网页十分复杂,包含动态内容以及多种语言和框架下的内容。这为大多数用户带来丰富体验的同时,却降低了低视力或视障用户的使用体验。低视力用户是指即便使用了最好的镜片,视力仍然有限的人群。他们通常使用屏幕阅读器,这类应用会获取其他程序的标准输出,对其进行解读,并以有意义的方式读给用户听。
现有的用于网页内容的屏幕阅读器,通常借助页面源代码结构来确定呈现内容的最佳方式,例如 ChromeVox 和 VoiceOver。然而,丰富媒体的融入使得这一过程变得极为困难,因为底层页面源代码十分复杂,导致输出内容让用户难以理解。
我们运用计算机视觉方法,为低视力用户构建语义丰富的网页环境。通过渲染网页并模拟人类浏览网页的方式,我们期望减少对高冗长度屏幕阅读器的依赖,从而提供更好的用户体验。屏幕阅读器的冗长设置可用于读取页面框架开始、图像出现等信息以及网页的其他格式特征。不过,我们也认识到有些用户喜欢高冗长度的屏幕阅读器,因为它能帮助他们在脑海中构建网页的心理模型。可以把低视力用户想象成在脑海中渲染网页,将屏幕阅读器的输出当作自己的“源代码”,以在心理模型中生成网页显示效果。由于当前屏幕阅读技术主要依赖网页源代码来确定网站特征的位置,因此利用计算机视觉的解决方案,如边缘检测和通用特征提取,有很大的改进空间,能更准确地向用户报告内容和格式的相对位置。与其他努力不同,我们提出的方法旨在更紧密地模拟有视力用户感知网页的方式,以提高稳健性。
这项工作为试图浏览在线网页的用户提供增强或替代的通信方式。无论用户是完全失明还是仅存在视力障碍(无论是由于残疾还是年龄原因),我们的方法都能为用户提供网页内容的音频传达选项。因此,这项工作也构成了感官
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



