Raki的读paper小记:Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

Abstract&Introduction&Related Work

  • 研究任务
    • 语言+视觉模态预训练任务
  • 已有方法和相关工作
    • masked data已经成为一种主流
  • 面临挑战
    • 现有的多模态大模型不同模态之间的参数的共享不够高效
  • 创新思路
    • 使用Multiway Transformers来通用建模,使用一个统一个结构共享不同下游任务
    • 模块化的网络同时充分考虑到了模态独特的编码和跨模态融合
    • 别的大模型往往使用了很多训练任务,而本文中仅仅使用mask-then-predict来训练通用的多模态模型
    • 将图片视为外语,把图片和文本做相同的处理,因此图片-文本对被视为平行语料来学习模态的对齐
    • 仅仅使用了公开数据集
  • 实验结论
    • 在目标检测,语义分割,图像分类,视觉推理,视觉问答,图像字幕,多模态抽取上都达到了sota(什么CV杀神?)

在这里插入图片描述
在视觉任务上全方位乱杀,可惜没看到NLP那边杀起来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值