Janus：开创统一的多模态理解和生成框架

Funny_AI_LAB

于 2024-10-21 23:37:42 发布

阅读量1.9k

点赞数 23

分类专栏：大模型文章标签：人工智能语言模型 ai 大模型多模态大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sexy19910923/article/details/143095754

版权

Janus是DeepSeek开源的多模式自回归框架，统一了多模态理解和生成，既可以理解图片内容又可以生成图片。
在这里插入图片描述

1.简介

Janus 是一种新颖的自回归框架，它将多模态理解和生成统一起来。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性，同时仍然使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，而且还增强了框架的灵活性。Janus 超越了之前的统一模型，并且达到或超过了特定任务模型的性能。Janus 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

机构： DeepSeek-AI、香港大学和北京大学

Github地址：https://github.com/deepseek-ai/Janus

论文地址：https://arxiv.org/abs/2410.13848

模型下载地址：https://huggingface.co/deepseek-ai/Janus-1.3B

2.模型摘要

Janus 是一种统一理解和生成的 MLLM，它将视觉

最低0.47元/天解锁文章

博客等级

码龄12年

111
原创

1710
点赞

2214
收藏

1005
粉丝

关注

私信

热门文章

分类专栏

计算机视觉 32篇
大模型 22篇
工具 27篇
个人成长 7篇
机器人 2篇
AIGC 14篇
python代码 3篇
数据汇总 2篇
tensorRT 1篇

展开全部收起

最新评论

AI图像相似性搜索对比：VIT, CLIP, DINO-v2, BLIP-2
Funny_AI_LAB: 与 BERT 类似，ViT 在输入序列前显式添加了一个可学习的 [CLS] token，其输出经过模型的多层自注意力机制后，理论上会编码全局图像语义信息。
AI图像相似性搜索对比：VIT, CLIP, DINO-v2, BLIP-2
杰酱: embedding = embedding[:, 0, :].squeeze(1) 你好，想请问一下这里为啥是取0啊，好像很多地方是取的平均，取0能代表全局吗
DeepSeek发布自己的AI图像生成器Janus-Pro
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619565360。
2024好用的AI视频编辑工具推荐
追风少年+1: 这篇文章真是干货满满，作者对技术细节的把握和解析非常到位，让我对这个主题有了更深入的理解。期待作者能分享更多这样的高质量内容！
Stability AI带着SD3.5 回来了！可免费商用
优快云-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。