多模态论文串讲-学习笔记（上）

最新推荐文章于 2025-08-02 14:00:02 发布

薇酱

最新推荐文章于 2025-08-02 14:00:02 发布

阅读量1.4k

点赞数 29

CC 4.0 BY-SA版权

文章标签：学习笔记人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_17246605/article/details/142299085

入门参考：跟着chatgpt一起学|多模态入门-优快云博客

学习参考：多模态论文串讲·上【论文精读·46】_哔哩哔哩_bilibili，强烈推荐这个博主啊，感觉比沐神讲的还要清楚，非常喜欢。

本文介绍只使用transformer encoder的方法，下中会介绍使用transformer encoder和decoder的方法。

目录

1.ViLT CLip回顾

(c)ViLBERT/UNITER

一个好的模型结构：

模型结构：

MoME Transformer：

分阶段预训练

1.ViLT CLip回顾

图片部分对应4种类型的图文多模态模型，蓝色部分是从这个模型中学到的较好的部分，最右边的是融合这些好的部分的模型结构。

(a) VSE

visual embedding（VE）的大小远大于text embedding（TE），两者也都远大于最终的模态交互(MI)，其中VE是来源于目标检测（OD）预训练算法中的，MI就是简单的点乘。

(b) CLIP

之前也有讲过：【经典论文】打通文本图像的里程碑--clip_clip论文-优快云博客

双塔模型，通过对比学习，将已有的图片文本对在空间上拉的更近。

对图文匹配任务而言效果好，且高效。

缺点：在VQA，VR，VE这些任务上性能不够好（模态之间的交互不足）

(c)ViLBERT/UNITER

在VSE的基础上，使用transformer的encoder或者别的更复杂的模型结构来进行模态之间的交互

(d) ViLT

为了将目标检测从视觉端拿掉，有局限性。

使用基于patch的视觉特征来替代使用基于bounding box的视觉特征，visual embedding是基于patch的，所以VE的大小较小，大大降低了复杂度。而相应的MI，类似与上面的C类里的方法，复杂度较高。

缺点：

性能不够高，可能比不过c类中的方法。有可能是数据集的bias，也有可能是视觉部分不够强。（VE是随机初始化的）

推理快，但是训练慢。（4million的数据集，64张32G GPU训练3天）

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄11年

70
原创

404
点赞

696
收藏

220
粉丝

关注

私信

热门文章

分类专栏

学习框架 6篇
跟着chatgpt一起学 12篇
深度学习 9篇
经典算法介绍 9篇
AIGC 4篇
excel 1篇
Hadoop 2篇
问题解决 8篇
机器学习 12篇
算法 4篇
hive 4篇
poj水题 16篇
环境问题 2篇
python第三方库 2篇
spark 2篇
NLP 5篇

展开全部收起

上一篇：: 跟着chatgpt一起学|多模态入门

下一篇：: 多模态论文串讲-学习笔记（下）

最新评论

分布式执行引擎ray入门--（1）简介
优快云-Ada助手: 不知道云原生入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/cloud_native?utm_source=AI_act_cloud_native
半监督短语挖掘：autophrase是什么？
薇酱: pages-articles.xml.bz2，这个在git上有说，https://github.com/kno10/WikipediaEntities
半监督短语挖掘：autophrase是什么？
lily_d_nlp_mt_istic: 你好，请问wiki数据用哪一个
图片是如何生成的--图像生成模型（GAN、VAE、扩散模型）简介
薇酱: GAN的可解释性通常较差，主要原因是它们的训练过程是一种黑箱操作。在训练GAN时，我们通常只关心生成器是否可以生成出与真实数据类似的数据，而不关心潜在空间中的变量到底代表了什么。因此，GAN的潜在空间通常没有明确的语义解释。另一方面，VAE的可解释性通常较好。VAE是一种基于概率的生成模型，它们的训练过程涉及到对潜在变量的后验分布进行建模。因此，我们可以通过观察和分析潜在变量的分布来理解模型的行为。此外，VAE的训练过程还包括一个重构误差项，这使得我们可以更好地理解潜在空间中的变量和它们如何影响生成的数据。 --以上回答来源于chatgpt，希望能帮到你
图片是如何生成的--图像生成模型（GAN、VAE、扩散模型）简介
不知道取啥名好: 大佬能请教你一下为什么是说gan模型可解释性不如VAE

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。