论文题目:Inexactly Matched Referring Expression Comprehension With Rationale

论文题目:Inexactly Matched Referring Expression Comprehension With Rationale

  • 论文地址:https://ieeexplore.ieee.org/document/10261300

摘要

引用表达式理解(REC)是一项多模态理解任务,其目的在于依据文本描述在图像中定位对象。传统的 REC 任务存在一个基本假设,即给定的文本表达式与图像通常能完全匹配。然而在实际场景里,图像与文本的精确匹配程度具有不确定性。图像中难以辨认的对象或者文本里模棱两可的短语,可能会极大地降低传统 REC 任务的性能。为突破这些限制,本文考量一个更实用且全面的 REC 任务,在此任务中,给定的图像及其文本表达式不一定完全匹配。本文构建的模型旨在修正这种不精确匹配并提供相应解释,该任务被称为进一步引用表达式理解(FREC)。此任务包含三个子任务:一是利用视觉信息修正错误的文本表达式;二是生成该输入表达式的解释逻辑;三是依据修正后的表达式定位合适的对象。本文构建了三个全新的 FREC 数据集:Further-RefCOCOs、Further-Copsref 以及 Further-Talk2Car。这些数据集基于现有的 REC 数据集,如 RefCOCO 和 Talk2Car。本文提出了一种新颖的架构,能够以端到端的方式同时执行这三个子任务,并开发了一个弹性掩码语言建模(EMLM)训练头,用于修正长度不确定的文本错误,并通过实验结果证实了该方法的有效性。

Part.01 研究贡献

  1. 本文概述了一个更通用和全面的REC任务,称为FREC,其中给定的图像和其引用的文本表达式可以不完全匹配。
  2. 本文为新的FREC任务提供了三个新的数据集:Further-RefCOCOs、Further-Copsref和FurtherTalk2Car。通过构造这些数据集,
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值