文 / Google AI 软件工程师 Piyush Sharma 和研究员 Radu Soricut
网络上有数十亿张图像,这有助于大众娱乐,以及向世界展示无数种主题。然而,对于有视觉障碍或由于网速太慢而无法加载图片的人士来说,其中很多视觉信息都无法获取。网站作者通过 Alt-text HTML 手动添加图像字幕,使更多人可以获取这些内容,然后我们可以使用文字转语音系统来展示对图像的自然语言描述。但是,只有很少一部分的网络图像添加了现有人工选编的 Alt-text HTML 字段。此外,虽然自动图像字幕制作有助于解决这一问题,但精准的图像字幕制作仍是一项颇具挑战性的工作,这需要提升计算机视觉和自然语言处理的现有技术水平。
注:Alt-text HTML 链接
https://www.w3schools.com/tags/att_img_alt.asp
文字转语音系统链接
https://ai.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html
自动图像字幕制作链接
https://ai.googleblog.com/2014/11/a-picture-is-worth-thousand-coherent.html

通过将图像字幕转换为文字,图像字幕制作可以帮助数百万有视觉障碍的人士。图像来自 Francis Vallance (Heritage Warrior),在 CC BY 2.0 许可下使用
今天我们将介绍概念字幕,这是由大约 330 万图像/字幕对组成的新数据集;我们通过从数以十亿计的网页中自动提取和过滤图像字幕注解来加以创建。在 ACL 2018 发表的一篇论文中引入了 “概念字幕”,这代表在人工选编的 MS-COCO 数据集中,字幕图像增加了一个数量级。根据人类评分者的测量,机器选编的概念字幕准确率大约为 90%。此外,由于概念字幕中的图像是从网络中提取,所以与之前的数据集相比,其图像字幕风格更加多样,这便于我们更好地训练图像字幕制作模型。为了追踪图像字幕制作的进度,我们还将向机器学习社群发布概念字幕挑战,以便他们在概念字幕测试台上训练和评估自己的图像字幕制作模型。
注:论文链接
http://aclweb.org/anthology/P18-1238