Janus:开创统一的多模态理解和生成框架

Janus是DeepSeek开源的多模式自回归框架,统一了多模态理解和生成,既可以理解图片内容又可以生成图片。
在这里插入图片描述

1.简介

Janus 是一种新颖的自回归框架,它将多模态理解和生成统一起来。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,而且还增强了框架的灵活性。Janus 超越了之前的统一模型,并且达到或超过了特定任务模型的性能。Janus 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

机构: DeepSeek-AI、香港大学和北京大学

Github地址:https://github.com/deepseek-ai/Janus

论文地址:https://arxiv.org/abs/2410.13848

模型下载地址:https://huggingface.co/deepseek-ai/Janus-1.3B

2.模型摘要

Janus 是一种统一理解和生成的 MLLM,它将视觉

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值