Abstract&Introduction&Related Work
- 研究任务
- 语言+视觉模态预训练任务
- 已有方法和相关工作
- masked data已经成为一种主流
- 面临挑战
- 现有的多模态大模型不同模态之间的参数的共享不够高效
- 创新思路
- 使用Multiway Transformers来通用建模,使用一个统一个结构共享不同下游任务
- 模块化的网络同时充分考虑到了模态独特的编码和跨模态融合
- 别的大模型往往使用了很多训练任务,而本文中仅仅使用mask-then-predict来训练通用的多模态模型
- 将图片视为外语,把图片和文本做相同的处理,因此图片-文本对被视为平行语料来学习模态的对齐
- 仅仅使用了公开数据集
- 实验结论
- 在目标检测,语义分割,图像分类,视觉推理,视觉问答,图像字幕,多模态抽取上都达到了sota(什么CV杀神?)
在视觉任务上全方位乱杀,可惜没看到NLP那边杀起来