【Image Captioning】DynRefer

DynRefer：提升区域级多模态识别能力的模型

原创

已于 2025-01-23 18:29:40 修改 · 1.1k 阅读

·

18

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#AI #多模态 #字幕生成 #python #深度学习 #属性识别 #图像分类

于 2025-01-23 18:20:00 首次发布

DynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程，显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制，能够以同时完成区域识别、区域属性检测和区域字幕生成任务。

文章链接：https://arxiv.org/abs/2405.16071

代码链接：https://github.com/callsys/DynRefer

一.介绍

区域级多模态任务模仿人类认知过程，根据特定的任务要求（开放词汇检测、属性识别、字幕生成等）将参考的图像区域翻译为语言输出。现有的方法以固定的分辨率作为输入，限制模型对于丰富分辨率的处理能力且难以捕获上下文信息。

人类的认知系统可以根据特定的语言描述（任务要求）通过注视和调整眼动的过程来调整视觉输入，形成非均匀的分辨率。现存的多模态大语言模型不具备视觉区域选择能力，导致应用于具体任务时缺乏特异性。

受视觉认知机制的启发，即增加聚焦区域的分辨率，同时抑制不相关的背景区域，提出动态分辨率方法，如下图所示。

DynRefer在训练时引入随机视觉-语言对齐，首先，对参考区域的周围进行采样，构建随机分辨率的图像；然后，将图像嵌入于具体任务的语言描述对齐。在推理时，执行动态多模态参考，形成与图像和语言描述先验相对应的动态分辨率图像。

二.相关工作

视觉语言模型

根据训练目标，Vision-Language Models（VLMs）可以分为图文对比学习、图文匹配、语言建模3种类型。应用于区域级任务时，模型在区域-文本对上进行训练以获取区域级理解能力。

区域级多模态任务

(1) 检测

基于对比学习的方法通过计算图像划定区域的

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。