63、基于计算机视觉的屏幕阅读器稳健框架

最新推荐文章于 2025-11-23 20:50:15 发布

elastic6hunter

最新推荐文章于 2025-11-23 20:50:15 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏： ECCV 2014：计算机视觉前沿与实践文章标签：计算机视觉屏幕阅读器视障用户

本文链接：https://blog.youkuaiyun.com/elastic6hunter/article/details/150462824

ECCV 2014：计算机视觉前沿与实践专栏收录该内容

96 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于计算机视觉的屏幕阅读器稳健框架

1. 引言

现代网页十分复杂，包含动态内容以及多种语言和框架下的内容。这为大多数用户带来丰富体验的同时，却降低了低视力或视障用户的使用体验。低视力用户是指即便使用了最好的镜片，视力仍然有限的人群。他们通常使用屏幕阅读器，这类应用会获取其他程序的标准输出，对其进行解读，并以有意义的方式读给用户听。

现有的用于网页内容的屏幕阅读器，通常借助页面源代码结构来确定呈现内容的最佳方式，例如 ChromeVox 和 VoiceOver。然而，丰富媒体的融入使得这一过程变得极为困难，因为底层页面源代码十分复杂，导致输出内容让用户难以理解。

我们运用计算机视觉方法，为低视力用户构建语义丰富的网页环境。通过渲染网页并模拟人类浏览网页的方式，我们期望减少对高冗长度屏幕阅读器的依赖，从而提供更好的用户体验。屏幕阅读器的冗长设置可用于读取页面框架开始、图像出现等信息以及网页的其他格式特征。不过，我们也认识到有些用户喜欢高冗长度的屏幕阅读器，因为它能帮助他们在脑海中构建网页的心理模型。可以把低视力用户想象成在脑海中渲染网页，将屏幕阅读器的输出当作自己的“源代码”，以在心理模型中生成网页显示效果。由于当前屏幕阅读技术主要依赖网页源代码来确定网站特征的位置，因此利用计算机视觉的解决方案，如边缘检测和通用特征提取，有很大的改进空间，能更准确地向用户报告内容和格式的相对位置。与其他努力不同，我们提出的方法旨在更紧密地模拟有视力用户感知网页的方式，以提高稳健性。

这项工作为试图浏览在线网页的用户提供增强或替代的通信方式。无论用户是完全失明还是仅存在视力障碍（无论是由于残疾还是年龄原因），我们的方法都能为用户提供网页内容的音频传达选项。因此，这项工作也构成了感官