【多模态大模型】多模态大模型 deepseek-ai/Janus-Pro-7B

原创

已于 2025-02-15 09:14:07 修改 · 774 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #多模态大模型 #Janus-Pro-7B

于 2025-02-15 08:47:38 首次发布

【多模态大模型】多模态大模型 deepseek-ai/Janus-Pro-7B

Janus-Pro-7B 模型介绍
下载
运行环境安装
模型推理示例
开源协议
参考

Janus-Pro-7B 模型介绍

Janus-Pro是一种新颖的自回归框架，它统一了多模态的理解和生成。该框架通过将视觉编码分解为独立的路径，解决了以往方法的局限性，同时仍然使用单一的统一Transformer架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。Janus-Pro超越了以往的统一模型，并在性能上与特定任务的模型相当甚至超过它们。Janus-Pro的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选。

github:

Github: https://github.com/deepseek-ai/Janus
性能
生成效果示例
Model Summary

Janus-Pro是基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base构建的。
在多模态理解方面，它使用SigLIP-L作为视觉编码器，支持384×384像素的图像输入。在图像生成方面，Janus-Pro使用了这里的标记器，下采样率为16。
发布时间

2025年1月28日

下载

model_id: deepseek-ai/Janus-Pro-7B
下载地址：[https://hf-mirror.com/deepseek-ai/Janus-Pro-7B](https://hf-mirror.com/deepseek-ai/Janus-Pro-7B)   不需要翻墙

运行环境安装

git clone https://github.com/deepseek-ai/Janus
cd Janus
pip install -e .  -i https://pypi.mirrors.ustc.edu.cn/simple

模型推理示例

Multimodal Understanding


import torch
from transformers import AutoModelForCausalLM
from janus.m

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

szZack

关注关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

AI Agent开发第37课-DeepSeek的多模态版JanusPro-7B本地安装

打造全国最全的AI Agent开发知识领域的博客

04-23

249

搜遍Janus Pro git issues、谷哥、国内网络，教程全都是错的。因此还是决定写一部全网唯一正确的教程。目前网上的教程包括外网的教程都是“缺斤少量”，按照那些教程操作下来不是装不起来，就是装起来只能CPU运行，或者运行起来了Janus的Web前端老是转啊转不出内容。

【多模态大模型实战】搭建DeepSeek Janus-Pro 7B 多模态模型，以及推理微调，推理后的模型融合

m0_47867638的博客

02-07

2687

Janus-Pro是DeepSeek最新开源的多模态模型，是一种新颖的自回归框架，统一了多模态理解和生成。通过将视觉编码解耦为独立的路径，同时仍然使用单一的、统一的变压器架构进行处理，该框架解决了先前方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突，还增强了框架的灵活性。Janus-Pro 超过了以前的统一模型，并且匹配或超过了特定任务模型的性能。

参与评论您还未登录，请先登录后发表或查看评论

DeepSeek Janus-Pro 7B 下载、安装与运行指南

qq_32358423的博客

02-18

3437

DeepSeek Janus-Pro 7B 是一款开源的多模态大模型，支持多模态理解与生成任务。由于其开源特性，开发者可以轻松下载并安装到本地环境或云端服务器中。

热门推荐

weixin_44626085的博客

02-01

1万+

Janus-Pro-7B 是由 DeepSeek 开发的多模态 AI 模型，它在理解和生成方面取得了显著的进步。这意味着它不仅可以处理文本，还可以处理图像等其他模态的信息。模型主要特点:Permalink统一的架构: Janus-Pro 采用单一 transformer 架构来处理文本和图像信息，实现了真正的多模态理解和生成。解耦的视觉编码: 为了更好地平衡理解和生成任务，Janus-Pro 将视觉编码解耦为独立的路径，提高了模型的灵活性和性能。

人人可用的视觉理解引擎——DeepSeek Janus-Pro-7B多模态模型深度解读

weixin_58022259的博客

02-04

5537

Janus-Pro-7B作为一个开源项目，它的诞生源于开发团队希望通过分享知识和技术来促进整个行业的发展

AI大模型学习五：‌DeepSeek Janus-Pro-7B 多模态半精度本地部署指南：环境是腾讯cloudstudio高性能GPU 16G免费算力

浪淘沙jkp的专栏

04-06

1625

由于前面玩过了，所以啥也别说，就是显存不够玩，要优化，没钱就是这么回事，看下图，显存实际只有15360M，确实是16G+如何获取算力。

DeepSeek 多模态大模型Janus-Pro-7B，本地部署教程！支持图像识别和图像生成

2401_86945738的博客

02-18

2224

开源了多模态大模型Janus-Pro-7B，普通电脑可以直接安装使用，现在我们就来本地部署！安装完成以后，根据提示打开本地链接：http://127.0.0.1:7860 即可进入到使用面板。1、检查自己是否安装了 Git 和 conda ，如果没有安装，请点击前往下载【当然如果你的电脑硬件过低，或者显卡不支持，那么可以使用免费的在线平台进行使用。8、运行 Janus Pro UI。7、安装 Gradio（UI）1、激活 Conda 虚拟环境。5、进入 Janus 目录。6、安装 Janus 依赖。

如何获取 DeepSeek 多模态大模型 Janus-Pro-7B

Debug yourself!

01-29

7438

DeepSeek 团队近期开源了新一代多模态模型 Janus-Pro-7B，该模型在图像生成和多模态理解方面表现卓越，超越了OpenAI的DALL-E 3，并在基准测试中取得了优异成绩。Janus-Pro-7B 的代码和模型参数已经分别在 github 和 huggingface 上开源，我们拉取到本地后就能运行使用了。由于模型比较大，约为15G，下载比较耗时，请耐心等待。下载成功后就可以进行下一步使用了，将在下一期分享。

DeepSeek又开源Janus-Pro，7B多模态强势登顶，OpenAI彻底慌了

2401_85375151的博客

01-29

2309

大家新春快乐，继之后，DeepSeek深夜又放大招，开源下一代和。先看效果，后面进行技术报告解读（回复“”可获取），效果上，“Und.”和“Gen.”分别表示“理解”和“生成”。使用外部预训练扩散模型的模型用†标记。。这些改进使得 Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进步，同时增强了文本到图像生成的稳定性。Janus-Pro 的架构与 Janus 相同，核心设计原则是解耦和。使用独立的编码方法将原始输入转换为特征，然后由统一的自回归transformer处理。

deepseek Janus-Pro-7B 模型 CPU 加载运行

lianmengde的博客

01-28

3153

【代码】deepseek Janus-Pro-7B 模型 CPU 加载运行。

一键部署DeepSeek Janus Pro 7B 大模型

qq_30481081的博客

02-09

798

完成集群的开通并了解基本的使用方法：https://docs.alayanew.com/docs/documents/useGuide/Vcluster/start/成功后，得到kubeconfig文件、弹性容器集群的信息、对象存储和Harbor仓库的相关信息。点击：https://docs.alayanew.com/复制该地址：打开浏览器记得加上端口为：22443。点击“立即体验”进行账户开通注册。提示：需要先设置环境变量，将配置文件放到自定义目录。文件路径，才能够执行。

DeepSeek JanusPro-7B本地安装-唯一正确版

打造全国最全的AI Agent开发知识领域的博客

02-09

3219

中国AI黑马DeepSeek开源Janus-Pro，可在ComfyUI中运行，支持文生图和图像反推

2401_84760527的博客

02-06

2575

Janus-Pro这款参数仅为7B,不仅支持图像生成，还具备多模态理解能力，该模型能够根据文本描述生成图像，并理解图像内容进行对话。2025年1月28日凌晨，中国AI公司DeepSeek开源了多模态模型Janus-Pro-7B。这款模型在GenEval和DPG-Bench两大权威测试中，击败了OpenAI的DALL·E 3和Stable Diffusion等业界标杆，展现了其卓越的性能和潜力。

DeepSeek开源Janus-Pro-7B：多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

ice_99的博客

02-06

1157

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注，位居应用商店排行榜首位并改变了股市。随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B，该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3，并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。

DeepSeek接入多模态，个人电脑也能飞速生成高清图，确实可以封神了！

算法channel

03-20

887

这里简单科普下，大模型为啥都需要GPU显存，因为跑大模型需要缓存权重参数和中间计算状态，比如模型权重存储，激活值缓存，并且它们必须要在高速显存里，这样才能保证高效推理。gpugeek，它家提供了常用的GPU资源，使用简单，部署新模型也容易，比如今天大家跟着下面教程，大概10分钟就能部署DeepSeek的多模态推理模型Janus-Pro:7B。Janus-Pro:7B支持两类能力，一是理解图片能力，就是你给它一个图，它会理解这幅图，包括图例的文字等。

如何使用 DeepSeek 多模态大模型 Janus-Pro-7B

01-30

### DeepSeek 多模态大模型 Janus-Pro-7B 使用指南 #### 获取模型为了使用 Janus-Pro-7B 模型，需先从指定网站下载模型文件。访问链接可获得最新版本的模型权重和其他必要资源[^2]。 ```bash # 下载命令示例（具体路径可能有所不同） wget https://huggingface.co/deepseek-ai/Janus-Pro-7B/archive/main.zip unzip main.zip -d ./janus_pro_7b/ ``` #### 安装依赖库安装必要的 Python 库来加载并运行此多模态模型。推荐使用虚拟环境隔离项目依赖项。 ```bash pip install transformers torch accelerate safetensors ``` #### 加载预训练模型通过 Hugging Face 的 `transformers` 库可以轻松加载已保存的模型及其配置。 ```python from transformers import AutoModelForVision2Seq, AutoProcessor model_name_or_path = "deepseek-ai/Janus-Pro-7B" processor = AutoProcessor.from_pretrained(model_name_or_path) model = AutoModelForVision2Seq.from_pretrained(model_name_or_path) ``` #### 数据准备与处理对于输入数据，无论是文本还是图像都需要经过特定方式编码成适合喂给神经网络的形式。 ```python image_url = "http://example.com/path/to/image.jpg" # 替换成实际图片URL text_input = "描述这张照片的内容" inputs = processor(image=image_url, text=text_input, return_tensors="pt") ``` #### 执行推理任务准备好所有前提条件之后就可以调用模型来进行预测了。这里展示了一个简单的例子用于说明如何执行一次前向传播操作得到输出结果。 ```python with torch.no_grad(): outputs = model.generate(**inputs) generated_text = processor.decode(outputs[0], skip_special_tokens=True) print(generated_text) ``` #### 进阶应用案例除了基本的文字到文字转换外，Janus Pro 7B 支持更多样化的应用场景，比如基于视觉的理解能力以及跨媒体的信息生成等功能[^3]。

【多模态大模型】 多模态大模型 deepseek-ai/Janus-Pro-7B

【多模态大模型】 多模态大模型 deepseek-ai/Janus-Pro-7B

Janus-Pro-7B 模型介绍

下载

运行环境安装

模型推理示例

【多模态大模型】多模态大模型 deepseek-ai/Janus-Pro-7B

【多模态大模型】多模态大模型 deepseek-ai/Janus-Pro-7B