多模态论文串讲-学习笔记(下)

入门参考:跟着chatgpt一起学|多模态入门-优快云博客

学习笔记(上):多模态论文串讲-学习笔记(上)-优快云博客

学习参考:多模态论文串讲·下【论文精读·49】_哔哩哔哩_bilibili

学习笔记上介绍只使用transformer encoder的方法,本文来介绍下同时使用transformer encoder和decoder的方法。

1. BLIP

论文地址:https://arxiv.org/pdf/2201.12086

代码地址:GitHub - salesforce/BLIP: PyTorch code for BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

摘要:

研究动机:

1.模型层面:

        仅使用encoder的方法虽然好,但是无法直接应用到text generation(例如:图像字幕生成)任务中。而同时使用transformer encoder和decoder,虽然可以适用于text generation 的任务,但是由于没有统一的框架,又没办法很好地使用于text image retrieval 任务。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值