论文题目:Inexactly Matched Referring Expression Comprehension With Rationale
- 论文地址:https://ieeexplore.ieee.org/document/10261300
摘要
引用表达式理解(REC)是一项多模态理解任务,其目的在于依据文本描述在图像中定位对象。传统的 REC 任务存在一个基本假设,即给定的文本表达式与图像通常能完全匹配。然而在实际场景里,图像与文本的精确匹配程度具有不确定性。图像中难以辨认的对象或者文本里模棱两可的短语,可能会极大地降低传统 REC 任务的性能。为突破这些限制,本文考量一个更实用且全面的 REC 任务,在此任务中,给定的图像及其文本表达式不一定完全匹配。本文构建的模型旨在修正这种不精确匹配并提供相应解释,该任务被称为进一步引用表达式理解(FREC)。此任务包含三个子任务:一是利用视觉信息修正错误的文本表达式;二是生成该输入表达式的解释逻辑;三是依据修正后的表达式定位合适的对象。本文构建了三个全新的 FREC 数据集:Further-RefCOCOs、Further-Copsref 以及 Further-Talk2Car。这些数据集基于现有的 REC 数据集,如 RefCOCO 和 Talk2Car。本文提出了一种新颖的架构,能够以端到端的方式同时执行这三个子任务,并开发了一个弹性掩码语言建模(EMLM)训练头,用于修正长度不确定的文本错误,并通过实验结果证实了该方法的有效性。
Part.01 研究贡献
- 本文概述了一个更通用和全面的REC任务,称为FREC,其中给定的图像和其引用的文本表达式可以不完全匹配。
- 本文为新的FREC任务提供了三个新的数据集:Further-RefCOCOs、Further-Copsref和FurtherTalk2Car。通过构造这些数据集,

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



