VLP(Vision-Language Pre-training)的发展和评估(1)

最新推荐文章于 2025-06-09 11:58:38 发布

x_cube

最新推荐文章于 2025-06-09 11:58:38 发布

阅读量476

点赞数

分类专栏： VLP 文章标签：计算机视觉人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41458274/article/details/132856598

版权

VLP 专栏收录该内容

9 篇文章

订阅专栏

目录

VLP发展的三个阶段

第一阶段：小规模特定任务方法设计 (2014/11-2019/8)

第二阶段：中等规模预训练 (2019/8-2021/8)

第三阶段：大规模预训练 (2021/8-现在)

什么是好的VLP模型？

VLP发展的三个阶段

第一阶段：小规模特定任务方法设计 (2014/11-2019/8)

已经为图像字幕和VQA开发了许多特定任务的方法。例如，重要的工作线是基于预先提取的视觉特征来设计各种注意力机制，例如ResNet、Faster RCNN。预先训练的词嵌入，例如GLoVe、word2vec和LSTM。这些注意力方法的设计已被用来捕捉多模态对齐，执行对象关系推理，并模拟多步推理。

第二阶段：中等规模预训练 (2019/8-2021/8)

受BERT的巨大成功的启发。在NLP中，VL领域已经逐渐转向使用基于Transformer的多模态融合模型，这些模型在中等规模的设置中进行了预训练，例如，使用多达4M图像的图像-文本数据集（总共大约10M图像-文本对），模型大小从110 M（BERT-基础）到340 M（BERT-大）。中等规模VLP模型的典型实例包括UNITER和OSCAR

第三阶段：大规模预训练 (2021/8-现在)

随着CLIP的出现和ALIGN提出了一种基于噪声的图像-文本双编码器训练方法，大规模VLP显示出巨大的应用前景，并成为VLP研究的基础。例如，SimVLM，Florence，Flamingo，CoCa，GIT。VLP的高计算成本可以通过使预训练模型适应广泛的下游任务来分摊。用于预训练的image-text对的数量已经增加到超过12B，模型大小增长到5 B，如在GIT中。

什么是好的VLP模型？

1. 在广泛的下游任务上实现良好的性能。

2.以最小的成本适应新任务。

参考：Vision-Language Pre-training: Basics, Recent Advances, and Future Trends

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。