Janus
- 理解任务(VQA)需要高层语义特征如物体类别、关系(信息压缩)
- 生成任务依赖细粒度细节如局部纹理,去模拟数据的分布(信息扩展)
- 单一编码器无法同时满足两种要求,导致性能受限(尤其在理解任务)
Janus 的创新点在于通过视觉编码解耦同时优化多模态理解和生成任务,理解上采用 SigLIP 提取全局语义特征,生成上用 VQ-GAN,保留局部细节信息。

| 任务类型 | 编码方法 | 特征 |
|---|---|---|
| 纯文本理解 | LLM 内置的文本分词器 | 文本->离散ID->LLM词嵌入特征 |
| 多模态理解 | SigLIP 编码器 | 图像->SigLIP->展平1D->Adapter 映射 |
| 视觉生成 | VQ-GAN 编码器 | 图像->VQ 离散 ID 序列->展平1D->Adapter 映射 Codebook |

- Stage 1:训练 Adapter 与图像头,让视觉和文本在 Embedding Space 上建立联系,数据上 1.25M 来自 ShareGPT4V 的 image-text pair 标注( < i m a g e > < t e x t > <image><text> <image><text>),1.2M ImageNet-1K 图片用于生成( < c a t e g o r y _ n a m e > < i m a g e > <category\_name><image>

最低0.47元/天 解锁文章
1761






