学习笔记(上):多模态论文串讲-学习笔记(上)-优快云博客
学习参考:多模态论文串讲·下【论文精读·49】_哔哩哔哩_bilibili
学习笔记上介绍只使用transformer encoder的方法,本文来介绍下同时使用transformer encoder和decoder的方法。
1. BLIP
论文地址:https://arxiv.org/pdf/2201.12086
摘要:
研究动机:
1.模型层面:
仅使用encoder的方法虽然好,但是无法直接应用到text generation(例如:图像字幕生成)任务中。而同时使用transformer encoder和decoder,虽然可以适用于text generation 的任务,但是由于没有统一的框架,又没办法很好地使用于text image retrieval 任务。
<