4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities论文精度

在这里插入图片描述

  • 贡献:在21种高度不同的模态中训练一个统一的模型,并且对比专有模型不会有性能损失
  • 做法:将不同模态映射到不同的token空间,并且可以生成不同的模态token【Any-to-any】
  • 关键点:如何在不同的模态中应用tokenization进行映射
  1. Introduction
  • 先前的方法将不同的模态映射为统一表征取得成功,但是这些方法的模态数量有限;
  • 提出modality-specific discrete tokenizers,让21个不同模态的任务可以协同训练:
    • image:ViT-based VQ-VAE tokenizers
    • 3D Human / image embeddings:MLP-based discrete VAEs
    • text:WordPiece tokenizer
  • 文章实现了在一个3B模型上进行One-to-all generation【只输入一种模态,可生成多种模态】
    [图片]
  1. Method
    2.1 Modalities
  • RGB:2D图像(tokenized and pixel)、调色板(可以控制生成图像的条件);

  • <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值