VLM （MLLM）系列——论文解读总结

TigerZ*

已于 2024-05-17 10:36:23 修改

阅读量873

点赞数

分类专栏： AIGC算法文章标签：深度学习人工智能计算机视觉 AIGC 图像处理算法

于 2024-02-05 19:33:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u012863603/article/details/136046906

版权

AIGC算法专栏收录该内容

39 篇文章 ¥89.90 ¥99.00

订阅专栏

本文总结了一系列多模态预训练模型，如CLIP、BLIP及其变种，探讨了它们的数据集、模型结构和训练策略。这些模型在图文对齐、图像理解与文本生成方面展现出了新意，部分在思南评测中取得优异成绩。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

建议

以下几篇都看一下吧，因为这几篇相对出发点都有新意，并且也都在同期的思南评测中有排名。

CLIP

*数据：用了4亿的互联网自有图文对数据。

*模型：由一个视觉编码器、一个文本编码器

*训练：一阶段预训练，在 32768 的batch size 下做的对比学习。

中文CLIP

*数据：由LAION 5B等构成一个2亿的图文对数据。

*模型：整体和CLIP类似，由一个视觉编码器、一个文本编码器。

*训练：两阶段预训练，权重来自CLIP等。第一阶段32768的batch size下冻结图像编码器，训练文本编码器；第二阶段，训练图像和文本编码器，batch size 和学习率降低。

BLIP

*1数据：4M的混合数据，coco、LAION等。数据清洗流

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

TigerZ* 你点滴支持，我持续创作，羞羞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。