VLP(Vision-Language Pre-training)的发展和评估(1)

目录

VLP发展的三个阶段

第一阶段:小规模特定任务方法设计 (2014/11-2019/8)

第二阶段:中等规模预训练 (2019/8-2021/8)

第三阶段:大规模预训练 (2021/8-现在)

什么是好的VLP模型?


VLP发展的三个阶段

第一阶段:小规模特定任务方法设计 (2014/11-2019/8)

        已经为图像字幕和VQA开发了许多特定任务的方法。例如,重要的工作线是基于预先提取的视觉特征来设计各种注意力机制,例如ResNet、Faster RCNN。预先训练的词嵌入,例如GLoVe、word2vec和LSTM。这些注意力方法的设计已被用来捕捉多模态对齐,执行对象关系推理,并模拟多步推理。

第二阶段:中等规模预训练 (2019/8-2021/8)

         受BERT的巨大成功的启发。在NLP中,VL领域已经逐渐转向使用基于Transformer的多模态融合模型,这些模型在中等规模的设置中进行了预训练,例如,使用多达4M图像的图像-文本数据集(总共大约10M图像-文本对),模型大小从110 M(BERT-基础)到340 M(BERT-大)。中等规模VLP模型的典型实例包括UNITER和OSCAR

第三阶段:大规模预训练 (2021/8-现在)

        随着CLIP的出现和ALIGN提出了一种基于噪声的图像-文本双编码器训练方法,大规模VLP显示出巨大的应用前景,并成为VLP研究的基础。例如,SimVLM,Florence,Flamingo,CoCa,GIT。VLP的高计算成本可以通过使预训练模型适应广泛的下游任务来分摊。用于预训练的image-text对的数量已经增加到超过12B,模型大小增长到5 B,如在GIT中。

什么是好的VLP模型?

1. 在广泛的下游任务上实现良好的性能。

2.以最小的成本适应新任务。

 参考:Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

### 视觉-语言预训练方法及相关模型 视觉-语言预训练(Vision-Language Pre-Training, VLP)是一种旨在联合处理图像文本数据的技术,其核心目标是从大规模的跨模态数据集中提取特征,并通过预训练的方式提升下游任务的表现。以下是关于VLP的一些重要概念方法: #### 统一的视觉语言预训练框架 一种典型的统一VLP模型能够支持多种任务,例如视觉语言生成(如图像描述)或理解(如视觉问答)。这种模型的关键特性之一是使用共享的多层Transformer网络来进行编码解码操作[^3]。具体来说,这种方法利用无监督学习目标——双向序列到序列(seq2seq)掩码视觉-语言预测——在大量的图像-文本对上进行预训练。 为了适应不同的任务需求,该模型通过调整自注意力机制中的掩码策略来控制上下文信息的选择范围。这一设计允许同一个神经架构既能作为编码器又能作为解码器运行,从而减少了参数冗余并提高了计算效率。 #### 多模态数据的优势与挑战 研究发现,多模态数据之间存在天然的对齐关系以及相互补充的特点。例如,一张图片可以从多个角度被描述成各种形式的文字说明;反过来讲,一段文字也可能对应着无数张相似主题的照片。因此,如何有效地捕捉这些复杂的映射规律成为了一个重要的课题[^4]。 值得注意的是,虽然当前大多数VLP技术都专注于构建强大的白盒环境下表现优异的系统,但在面对实际应用场景时却可能遭遇困难。这是因为传统做法往往只依赖单一配对样本创建对抗实例,缺乏足够的变化性,进而影响到了迁移至未知领域的能力。 #### 自然获取标注资源的新途径 鉴于人工标记海量物体种类的成本过高且难以持续扩展规模,有学者提出了一条可行之路:借助互联网上海量未经加工过的图文资料自动挖掘潜在的知识点。相比起严格定义好的标准答案集合而言,这种方式能覆盖更加广泛的主题范畴,有助于揭示深层次的关联模式[^5]。 ```python # 示例代码片段展示了如何加载预训练权重文件 import torch from transformers import VisionEncoderDecoderModel model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning") print(model) ``` 上述Python脚本演示了怎样快速导入一个已经过充分优化后的视觉转自然语言表述转换工具包内的现成成果。“vit-gpt2-image-captioning”代表的就是这样一个融合了计算机视觉(Vision Transformer)同文本生产(GPT-2)能力于一体的解决方案案例。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值