多模态论文串讲-学习笔记（下）

薇酱

已于 2024-10-12 00:24:29 修改

阅读量1.1k

点赞数 24

CC 4.0 BY-SA版权

文章标签：学习笔记

于 2024-10-10 10:05:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_17246605/article/details/142617945

入门参考：跟着chatgpt一起学|多模态入门-优快云博客

学习笔记（上）：多模态论文串讲-学习笔记（上）-优快云博客

学习参考：多模态论文串讲·下【论文精读·49】_哔哩哔哩_bilibili

学习笔记上介绍只使用transformer encoder的方法，本文来介绍下同时使用transformer encoder和decoder的方法。

1. BLIP

论文地址：https://arxiv.org/pdf/2201.12086

代码地址：GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

摘要：

研究动机：

1.模型层面：

仅使用encoder的方法虽然好，但是无法直接应用到text generation（例如：图像字幕生成）任务中。而同时使用transformer encoder和decoder，虽然可以适用于text generation 的任务，但是由于没有统一的框架，又没办法很好地使用于text image retrieval 任务。

<

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄11年

70
原创

404
点赞

696
收藏

220
粉丝

关注

私信

热门文章

分类专栏

学习框架 6篇
跟着chatgpt一起学 12篇
深度学习 9篇
经典算法介绍 9篇
AIGC 4篇
excel 1篇
Hadoop 2篇
问题解决 8篇
机器学习 12篇
算法 4篇
hive 4篇
poj水题 16篇
环境问题 2篇
python第三方库 2篇
spark 2篇
NLP 5篇

展开全部收起

上一篇：: 多模态论文串讲-学习笔记（上）

下一篇：: 如何进行模型调参？（内含超参数调优）

最新评论

分布式执行引擎ray入门--（1）简介
优快云-Ada助手: 不知道云原生入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/cloud_native?utm_source=AI_act_cloud_native
半监督短语挖掘：autophrase是什么？
薇酱: pages-articles.xml.bz2，这个在git上有说，https://github.com/kno10/WikipediaEntities
半监督短语挖掘：autophrase是什么？
lily_d_nlp_mt_istic: 你好，请问wiki数据用哪一个
图片是如何生成的--图像生成模型（GAN、VAE、扩散模型）简介
薇酱: GAN的可解释性通常较差，主要原因是它们的训练过程是一种黑箱操作。在训练GAN时，我们通常只关心生成器是否可以生成出与真实数据类似的数据，而不关心潜在空间中的变量到底代表了什么。因此，GAN的潜在空间通常没有明确的语义解释。另一方面，VAE的可解释性通常较好。VAE是一种基于概率的生成模型，它们的训练过程涉及到对潜在变量的后验分布进行建模。因此，我们可以通过观察和分析潜在变量的分布来理解模型的行为。此外，VAE的训练过程还包括一个重构误差项，这使得我们可以更好地理解潜在空间中的变量和它们如何影响生成的数据。 --以上回答来源于chatgpt，希望能帮到你
图片是如何生成的--图像生成模型（GAN、VAE、扩散模型）简介
不知道取啥名好: 大佬能请教你一下为什么是说gan模型可解释性不如VAE

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。