论文题目：Inexactly Matched Referring Expression Comprehension With Rationale

最新推荐文章于 2025-12-17 17:41:55 发布

原创

最新推荐文章于 2025-12-17 17:41:55 发布 · 754 阅读

·

29

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #计算机视觉

论文题目：Inexactly Matched Referring Expression Comprehension With Rationale

论文地址：https://ieeexplore.ieee.org/document/10261300

摘要

引用表达式理解（REC）是一项多模态理解任务，其目的在于依据文本描述在图像中定位对象。传统的 REC 任务存在一个基本假设，即给定的文本表达式与图像通常能完全匹配。然而在实际场景里，图像与文本的精确匹配程度具有不确定性。图像中难以辨认的对象或者文本里模棱两可的短语，可能会极大地降低传统 REC 任务的性能。为突破这些限制，本文考量一个更实用且全面的 REC 任务，在此任务中，给定的图像及其文本表达式不一定完全匹配。本文构建的模型旨在修正这种不精确匹配并提供相应解释，该任务被称为进一步引用表达式理解（FREC）。此任务包含三个子任务：一是利用视觉信息修正错误的文本表达式；二是生成该输入表达式的解释逻辑；三是依据修正后的表达式定位合适的对象。本文构建了三个全新的 FREC 数据集：Further-RefCOCOs、Further-Copsref 以及 Further-Talk2Car。这些数据集基于现有的 REC 数据集，如 RefCOCO 和 Talk2Car。本文提出了一种新颖的架构，能够以端到端的方式同时执行这三个子任务，并开发了一个弹性掩码语言建模（EMLM）训练头，用于修正长度不确定的文本错误，并通过实验结果证实了该方法的有效性。

Part.01 研究贡献

本文概述了一个更通用和全面的REC任务，称为FREC，其中给定的图像和其引用的文本表达式可以不完全匹配。
本文为新的FREC任务提供了三个新的数据集：Further-RefCOCOs、Further-Copsref和FurtherTalk2Car。通过构造这些数据集，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。