- 贡献:在21种高度不同的模态中训练一个统一的模型,并且对比专有模型不会有性能损失
- 做法:将不同模态映射到不同的token空间,并且可以生成不同的模态token【Any-to-any】
- 关键点:如何在不同的模态中应用tokenization进行映射
- Introduction
- 先前的方法将不同的模态映射为统一表征取得成功,但是这些方法的模态数量有限;
- 提出modality-specific discrete tokenizers,让21个不同模态的任务可以协同训练:
- image:ViT-based VQ-VAE tokenizers
- 3D Human / image embeddings:MLP-based discrete VAEs
- text:WordPiece tokenizer
- 文章实现了在一个3B模型上进行One-to-all generation【只输入一种模态,可生成多种模态】
- Method
2.1 Modalities
-
RGB:2D图像(tokenized and pixel)、调色板(可以控制生成图像的条件);
- <