Exploring Visual Relationship for Image Captioning

本文提出了一种新的图卷积网络和长短期记忆(GCN-LSTM)架构,用于图像描述。通过探索和利用图像中对象之间的视觉关系,GCN-LSTM能生成更高质量的图像字幕,特别是在CIDEr-D指标上提高了8.6%。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原论文名称:Exploring Visual Relationship for Image Captioning

作者:Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei

论文地址


摘要

人们总是相信,对象之间的建模关系将有助于表示和最终描述图像。然而,没有现有技术支持从建模对象关系出发进行image caption生成。在本文中,介绍了一种新的设计---在基于注意力的编码器 - 解码器框架下探索图像描述中对象之间的连接。具体来说,我们提出了图卷积网络(GCN)和长短期记忆(称为GCN-LSTM)架构,novelly之处是它将语义和空间对象关系集成到图像编码器中。从技术上讲,基于图片中被检测对象之间的空间和语义连接构建graph。然后通过GCN利用图结构(graph structure)来改善在对象上提出的每个区域的表示。借助学习到的区域级特征,我们的GCN-LSTM充分利用基于LSTM的caption框架以及用于句子生成的注意机制。对COCO图像描述(image caption)数据集进行了大量实验,与现有最好技术方法相比,得到了优异的结果。更值得注意的是,GCN-LSTM在COCO测试集上将CIDEr-D性能从120.1%提高到128.7%。

介绍

深度神经网络的最新进展完美地证明了其在学习视觉模型时的高能力,特别是在识别方面。 这些成就为图像理解的最终目标迈出了更远的一步,即用完整的自然的句子自动描述图像内容或称为图像描述问题。 图像字幕的典型解决方案[7,34,37,39]受到机器翻译的启发,相当于将图像翻译成文本。 如图1(a)和(b)所示,通常利用卷积神经网络(CNN)或基于区域的CNN(R-CNN)来编码图像和并用递归神经网络(RNN)解码器w/ 或者 w/o注意力机制来生成句子,每个时间步一个单词。无论CNN加RNN图像字幕框架的这些不同版本如何,未充分研究的常见问题是如何利用视觉关系(visual relationship)来考虑对象之间的相互关联或交互是描述图像的自然基础。

Fig.1. Visual representations generated by image encoder in (a) CNN plus LSTM, (b) R-CNN plus LSTM, and (c) our GCN-LSTM for image captioning.

视觉关系(visual relationship)表征图像中检测对象之间的交互或相对位置。视觉关系的检测不仅涉及对象的定位和识别,还涉及对每对对象之间的交互(谓词)进行分类。通常,该关系可以表示为<subject-predicate-object>,例如<man-eating-sandwich><dog-inside-car>。在文献中,人们已经认识到,推理

### 数据增强技术在多模态3D目标检测中的应用 对于多模态3D目标检测,在计算机视觉领域内,数据增强方法旨在通过变换输入数据来增加模型训练的有效样本数量并提升泛化能力。具体到多模态场景下,这些方法不仅涉及图像层面的操作,还包括点云和其他传感器信号的处理。 #### 图像域的数据增强 传统的二维图像上的几何变换同样适用于基于摄像头获取的RGB图片或热成像图等: - **随机裁剪与缩放**:通过对原始图像执行不同尺度下的裁切操作,可以模拟远近变化的效果[^1]。 - **颜色抖动**:调整亮度、对比度、饱和度等因素有助于提高算法应对复杂光照条件的能力。 ```python import torchvision.transforms as transforms transform = transforms.Compose([ transforms.RandomResizedCrop(size=(224, 224), scale=(0.8, 1.2)), transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), ]) ``` #### 点云域的数据增强 针对LiDAR或其他雷达设备产生的三维空间坐标集合——即点云数据,则有专门设计的技术手段用于扩充其多样性: - **旋转和平移扰动**:沿任意轴向施加微小角度偏转或是位移量级内的变动能够有效防止过拟合现象的发生。 - **噪声注入**:引入高斯分布形式的小幅波动至各维度数值上,以此检验网络结构鲁棒性的强弱程度。 ```python import numpy as np def apply_noise(points, sigma=0.01): noise = np.random.normal(scale=sigma, size=points.shape) noisy_points = points + noise return noisy_points ``` #### 跨模态联合增强策略 考虑到多种感知源之间可能存在关联性特征共享的情况,跨模态同步实施相同类型的转换动作显得尤为重要。比如当对相机视角做水平翻转变换时,也应相应地改变激光雷达所记录下来的物体朝向信息;同理,在调节色彩参数的同时保持其他物理属性不变等等。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值