视觉 LLM 开源的疯狂月！阿里 Qwen、腾讯混元、谷歌等连续开源重磅模型

最新推荐文章于 2025-09-27 20:49:32 发布

原创最新推荐文章于 2025-09-27 20:49:32 发布 · 1.2k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #缓存 #prompt #spring #人工智能

根据统计，12 月份，已经有来自阿里、腾讯混元、谷歌、Meta 等大厂的 5 个重磅视觉模型开源发布了：

“大模型能够通过图像识别乐谱和人类情绪了”。

“利用模型，直接可以生成高清视频，而且是还会带配音的！”。

“模型能够处理与理解的视频达到 20 分钟以上了”。

“可以采用参考图像，更精确地控制图生成用户想要的图像和视频了”。

划重点，它们都对你开源了！这是不是"泼天富贵"齐刷刷地来了！

现在将近期主要发布的开源大模型列举如下：

下面让我们一起踏上这场视觉-语言模型的奇妙之旅吧！别急，跟着我的节奏，慢慢揭开这些神奇模型的神秘面纱。对于上述模型的进一步详细了解，不要着急，请根据小编的节奏慢慢来了解吧。

一、PaliGemma 2

PaliGemma 2 这个让人兴奋的新一代视觉语言模型！它不仅是 PaliGemma 家族的新成员，更是 Gemma 2 模型能力的延伸。这个模型家族的灵感来源于 PaLI-3，并且基于开放组件，比如 SigLIP 视觉模型和 Gemma 2 语言模型。PaliGemma 2 能够接收图像和文本作为输入，并生成文本作为输出，支持多种语言。它为一系列视觉语言任务提供了行业领先的微调性能，比如图像和短视频描述、视觉问题回答、文本阅读、目标检测和目标分割。

论文：
https://arxiv.org/pdf/2412.03555

huggingface 模型库：https://huggingface.co/collections/google/paligemma-2

🍀模型亮点：

PaliGemma 2 升级了语言模型组件，提供 3 种大小（3B、10B、28B）的参数版本和 3 种分辨率为 224、448 和 896 版本。
采用与 PaliGemma 相同的 3 阶段训练方法，PaliGemma 2 在 30 多个任务上表现优于 PaliGemma，尤其在较大模型尺寸上有显著提升。
探索新任务，包括文本检测与识别、表格结构识别、分子结构识别、光学乐谱识别、长文本生成、空间推理和放射学报告生成，PaliGemma 2 在许多任务上取得了最先进的结果。
对 PaliGemma 2 的低精度版本进行基准测试，适用于 CPU 上的设备部署。

🍀模型结构:

PaliGemma 2 是对原有 PaliGemma 的升级，在 Gemma 2 系列大语言模型基础上，结合了 SigLIP-So400m 视觉编码器，以提升视觉-语言模型（VLM）的性能。

上图所示， PaliGemma 2 的结构主要包括 SigLIP-So400m 视觉编码器和 Gemma 2 语言模型。

**SigLIP-So400m 视觉编码器：**该编码器负责将图像信息转化成特征表示。这些视觉表示随后与文本提示结合，输入到 Gemma 2 语言模型中；SigLIP-400m 图像编码器能够处理 224、448 和 896 像素图像，分别产生 256、1024 和 4096 个 token。
Gemma 2 语言模型：PaliGemma 2 基于 Gemma 2 系列的语言模型，涵盖从 2B 到 27B 的不同规模的模型。图像 token 通过线性投影之后，与输入文本连接起来该模型通过自回归采样生成预测。

🍀分辨率分阶段训练:

该模型在 224px²、448px² 和 896px² 三种分辨率下进行多阶段训练，增强了模型的知识广度和迁移能力。

阶段 1：使用 10 亿个多模态任务样本，图像分辨率 224px², 联合训练 SigLIP-So400m 和 Gemma 2;
阶段 2：先在 448px² 像素分辨率下对 5000 万个样本进行训练，再在 896px² 像素分辨率下训练 1000 万个样本。此阶段主要在重点任务上调权重，增加输出序列的长度，以促进长视觉文本序列的 OCR 等任务的学习。
阶段 3：对阶段 1 或 2 的 checkpoint 进行目标任务微调，涵盖多个学术基准和新应用（文档任务、长标题生成、医学图像理解）

🍀迁移任务扩展

PaliGemma 2 扩展了迁移任务的数量和范围，包括：

表格结构识别
分子结构识别
乐谱识别
长文本细粒度描述的生成
视觉空间推理
放射图像报告的生成

二、InternVL 2_5

OpenGVLab 发布 InternVL2.5，这是一个先进的多模态大型语言模型系列，参数覆盖从 1B 到 78B。其中这周发出的 InternVL2_5-78B 是首个在 MMMU 基准测试上超过 70% 准确率的开源多模态大型语言模型，匹配了像 GPT-4o 这样的领先闭源商业模型的性能。

Huggingface 模型库：
https://huggingface.co/OpenGVLab/InternVL2_5-78B

论文：
https://arxiv.org/abs/2412.05271v1

Code：
https://github.com/OpenGVLab/InternVLModel

Demo：
https://huggingface.co/sp

主要贡献点

InternVL 2.5 为多模态人工智能系统的开发和应用提供了一个强大的工具，并鼓励在该领域的进一步研究。
研究多模态语言模型中的不同组件（如视觉编码器、语言模型、数据集大小和推理时间）对性能的影响。
在多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力和纯语言处理方面可与 gpt-4o 和 Claude-3.5-Sonnet 等领先的商业模型相媲美。
这是第一个在 MMMU 验证集上超过 70% 的开源多模态语言模型，具有强大的扩展潜力。

模型结构及训练策略：

上图所示，InternVL 2.5 保留了与其前身 InternVL 1.5 和 2.0 相同的模型架构，遵循“ViT MLP LLM”范式。在这个新版本中，使用随机初始化的 MLP Projector, 将新训练的 InternViT 与各种预训练的 LLMs（包括 InternLM 2.5 和 Qwen 2.5）集成在一起。

与前一版本相同的是使用了像素解卷积操作，将视觉 token 的数量减少到原始数量的 1/4。此外，还采用了与 InternVL 1.5 类似的动态分辨率策略，将图像分割成 448×448 像素分块。InternVL 2.0 开始，支持对多张图像和视频数据的处理。InternVL 2.5 采用的训练策略包括：

动态处理高分辨率多模态数据：扩展了动态高分辨率训练方法，增强了其处理多图像和视频数据集的能力。
单模型训练步骤 ：包括 MLP 预热、ViT 增量学习和完整的模型指令调优。
**渐进式扩展策略：**首先使用较小的 LLM（例如 20B）进行训练，以优化基础视觉能力和跨模态对齐，然后再将视觉编码器转移到较大的 LLMs（例如 72B）。
训练增强方式：随机 JPEG 压缩和损失重计。

三、Qwen2-VL

Qwen2 VL 这是我们 Qwen VL 型号的最新迭代，代表了近一年的创新。这周新发布的是 Qwen2-VL-72B, 是一个没有指令调优的预训练模型。

paper：
https://arxiv.org/pdf/2409.12191

Huggineface 库：
https://huggingface.co/Qwen/Qwen2-VL-72B

Code：
https://github.com/QwenLM/Qwen2-VL

🌺 模型亮点：

对各种分辨率和比率的图像的理解：Qwen2 VL 在视觉理解基准上达到了最先进的性能，包括 MathVista、DocVQA、RealWorldQA、MTVQA 等。
理解 20 分钟以上的视频：Qwen2 VL 可以理解超过 20 分钟的视频，用于高质量的视频问答、对话、内容创作等。
**可以操作手机、机器人等：**Qwen2 VL 具有复杂的推理和决策能力，可以与手机、机器人等设备集成，根据视觉环境和文本指令进行自动操作。
**多语言支持：**为了服务全球用户，除了英语和中文，Qwen2 VL 现在还支持理解图像中不同语言的文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

🌺 模型架构更新：

**动态分辨率：**与以前不同，Qwen2 VL 可以处理任意图像分辨率，将它们映射到动态数量的视觉 token 中，提供更人性化的视觉处理体验。

**多模态旋转位置嵌入（**M-ROPE）：将位置嵌入分解为代表时间和空间（高度和宽度）信息的三个部分，以捕获 1D 文本、2D 视觉和 3D 视频位置信息，增强其多模态处理能力。

四、HunyuanVideo

HunyuanVideo 是腾讯新推出的、可以免费使用的文本生成视频的模型，它生成视频的能力跟那些顶尖的、不公开的模型一样厉害，甚至有时候做得更好。这款模型拥有 130 亿参数，能进行自然转场和镜头切换。其视频生成效果在远景和动作流畅度上表现出色，尤其在人文场景、人造场所、人物及多主体组合方面有明显优势，同时在物品和动植物方面也表现不错。目前版本分辨率为 720P，未来可能推出 1080P、4K、8K 版本，并考虑增加图像生成视频和视频自动配乐功能。

paper：
https://arxiv.org/pdf/2412.03603

code：
https://github.com/Tencent/HunyuanVideo

🔥模型的贡献点：

开源性的模型：HunyuanVideo 是一个新颖的开源视频基础模型，其性能与领先的闭源模型相当，甚至在某些方面超越了它们。有助于缩小行业与公众社区之间在视频生成能力上的差距。

综合框架：该模型整合了数据策划、先进的架构设计、渐进式模型扩展和训练，旨在促进大规模模型的训练和推理。

大规模参数：HunyuanVideo 训练了一个超过 130 亿参数的视频生成模型，使其成为所有开源模型中最大的。

高视觉质量和动态表现：通过一系列针对性的设计，HunyuanVideo 确保了生成视频的高视觉质量、运动动态、文本与视频的对齐以及先进的拍摄技术。

视频-图像联合训练：通过视频-图像联合训练策略，HunyuanVideo 有效利用了图像数据，增强了模型的泛化能力，并防止了因视频和图像数据分布差异而导致的灾难性遗忘。

🔥HunyuanVideo 的架构

HunyuanVideo 就像是一个魔法盒子，它用一种特别的方法来制作视频。这个魔法盒子里有一个叫做 3D VAE 的压缩器，它能把视频中的时间和空间信息压缩成更小的数据。当有人给这个盒子一个文字提示，比如“一只小狗在草地上奔跑”，这个提示会通过一个大语言模型转换成一种特殊的信号，然后告诉这个魔法盒子要做什么。

接下来，这个魔法盒子会用这个信号作为指导，从一团混乱的噪声中一步步清理出秩序，最终得到一个代表视频的神秘代码。这个神秘代码就像是视频的蓝图，但是它还在一个隐藏的空间里，我们看不见。

最后，当需要把视频做出来给大家看的时候，魔法盒子会用一个 3D VAE 解码器，把那个隐藏的神秘代码转换成一个真正的视频，这样大家就可以看到小狗在草地上奔跑的画面了。简单来说，HunyuanVideo 就是一个能够根据文字提示制作视频的神奇工具。

🔥模型的特点

🎉 统一的图视频生成架构

HunyuanVideo 采用了 Transformer 和 Full Attention 的设计用于视频生成。具体来说，使用了一个“双流到单流”的混合模型用于视频生成。在双流阶段，视频和文本 token 通过并行的 Transformer Block 独立处理，使得每个模态可以学习适合自己的调制机制而不会相互干扰。在单流阶段，将视频和文本 token 连接起来并将它们输入到后续的 Transformer Block 中进行有效的多模态信息融合。这种设计捕捉了视觉和语义信息之间的复杂交互，增强了整体模型性能。

🎉MLLM 文本编码器

过去的视频生成模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器，其中 CLIP 使用 Transformer Encoder，T5 使用 Encoder-Decoder 结构。HunyuanVideo 使用了一个预训练的 Multimodal Large Language Model (MLLM) 作为文本编码器，它具有以下优势：

与 T5 相比，MLLM 基于图文数据指令微调后在特征空间中具有更好的图像-文本对齐能力，这减轻了扩散模型中的图文对齐的难度；
与 CLIP 相比，MLLM 在图像的细节描述和复杂推理方面表现出更强的能力；
MLLM 可以通过遵循系统指令实现零样本生成，帮助文本特征更多地关注关键信息。

由于 MLLM 是基于 Causal Attention 的，而 T5-XXL 使用了 Bidirectional Attention 为扩散模型提供更好的文本引导。因此，引入了一个额外的 token 优化器来增强文本特征。

🎉3D VAE

该模型中的 VAE 采用了 CausalConv3D 作为 HunyuanVideo 的编码器和解码器，用于压缩视频的时间维度和空间维度，其中时间维度压缩 4 倍，空间维度压缩 8 倍，压缩为 16 channels。这样可以显著减少后续 Transformer 模型的 token 数量，使得能够在原始分辨率和帧率下训练视频生成模型。

🎉Prompt 改写

为了解决用户输入文本提示的多样性和不一致性的困难，通过微调 Hunyuan-Large model 模型作为 prompt 改写模型，将用户输入的提示词改写为更适合模型偏好的写法。

提供了两个改写模式：正常模式和导演模式。正常模式旨在增强视频生成模型对用户意图的理解，从而更准确地解释提供的指令。导演模式增强了诸如构图、光照和摄像机移动等方面的描述，倾向于生成视觉质量更高的视频。

五、OminiControl

OminiControl 是一种高效且通用的框架，旨在将参考图像集成到预训练的 Diffusion Transformer（DiT）模型中。其核心思想是通过参数重用机制，使 DiT 利用自身作为强大的基础架构来编码参考图像，并通过灵活的多模态注意力机制进行处理。这种方法仅需增加约 0.1% 的额外参数，就能有效整合参考图像，并且能够统一处理多种有参考图像的生成任务。

Paper：
https://arxiv.org/html/2411.15098v2

Code：
https://github.com/Yuanshi9815/OminiControl

Demo：
https://huggingface.co/spaces/Yuanshi/OminiControl

🌞主要特点：

参数重用机制：通过参数重用机制，仅增加约 0.1% 的额外参数，有效整合图像条件，并且能够统一处理多种图像条件任务。
多任务处理能力：该框架能够统一处理多种图像条件任务，包括基于主题的生成和空间对齐条件（如边缘、深度等）。
自生成训练数据：通过使用 DiT 自身生成的图像进行训练，使 OminiControl 在主题驱动生成方面表现出色。

💐 应用举例

主题驱动的生成
空间对齐

上图展示了 OminiControl 在两种生成任务上的结果：主题驱动的生成任务和空间对齐任务。上方的部分展示了在主题驱动生成任务中，模型如何根据输入的文本描述和参考图像生成新的图像，而下方则展示了在空间对齐任务中，模型如何根据特定的条件（如边缘图、深度图等）生成与之对应的图像。

红框内的小图像表示了参考图像，这些参考在生成过程中起着至关重要的作用。它们为模型提供了必要的上下文信息，使得生成的图像能够更好地符合用户的期望。例如，在主题驱动生成任务中，输入可能是一个特定的对象图像和相关的文本描述，模型需要根据这些信息生成新的图像，同时保持对象的特征和风格。在空间对齐任务中，输入参考图如边缘图或深度图则帮助模型理解图像的结构和内容，从而生成更为准确和一致的图像。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述