论文阅读笔记——Janus,Janus Pro

Janus

Janus 论文

  • 理解任务(VQA)需要高层语义特征如物体类别、关系(信息压缩)
  • 生成任务依赖细粒度细节如局部纹理,去模拟数据的分布(信息扩展)
  • 单一编码器无法同时满足两种要求,导致性能受限(尤其在理解任务)
    Janus 的创新点在于通过视觉编码解耦同时优化多模态理解和生成任务,理解上采用 SigLIP 提取全局语义特征,生成上用 VQ-GAN,保留局部细节信息。
    在这里插入图片描述
任务类型 编码方法 特征
纯文本理解 LLM 内置的文本分词器 文本->离散ID->LLM词嵌入特征
多模态理解 SigLIP 编码器 图像->SigLIP->展平1D->Adapter 映射
视觉生成 VQ-GAN 编码器 图像->VQ 离散 ID 序列->展平1D->Adapter 映射 Codebook

在这里插入图片描述

  • Stage 1:训练 Adapter 与图像头,让视觉和文本在 Embedding Space 上建立联系,数据上 1.25M 来自 ShareGPT4V 的 image-text pair 标注( < i m a g e > < t e x t > <image><text> <image><text>),1.2M ImageNet-1K 图片用于生成( < c a t e g o r y _ n a m e > < i m a g e > <category\_name><image>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值