Janus是DeepSeek开源的多模式自回归框架,统一了多模态理解和生成,既可以理解图片内容又可以生成图片。
1.简介
Janus 是一种新颖的自回归框架,它将多模态理解和生成统一起来。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,而且还增强了框架的灵活性。Janus 超越了之前的统一模型,并且达到或超过了特定任务模型的性能。Janus 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
机构: DeepSeek-AI、香港大学和北京大学
Github地址:https://github.com/deepseek-ai/Janus
论文地址:https://arxiv.org/abs/2410.13848
模型下载地址:https://huggingface.co/deepseek-ai/Janus-1.3B
2.模型摘要
Janus 是一种统一理解和生成的 MLLM,它将视觉