最新开源：英伟达开源NVLM 1.0屠榜多模态；MIT推出AgentTorch；腾讯开源Oryx多模态视觉理解模型-优快云博客

01.媲美GPT-4o，英伟达推出多模态大语言模型NVLM 1.0

最近，英伟达推出了多模态大型语言模型（MLLM）系列 NVLM 1.0，其在视觉-语言任务上取得了SOTA，可与最强大的闭源模型（如GPT-4o）和开源模型（如 Llama 3-V 405B 和 InternVL 2）相媲美。值得注意的是，经过多模态训练后，NVLM 1.0 的纯文本性能比其 LLM 主干模型有所提高。

论文地址：https://arxiv.org/abs/2409.11402
项目地址：https://nvlm-project.github.io

在模型设计方面，研究人员对纯解码器多模态大模型（如LLaVA）和基于交叉注意力的模型（如Flamingo）进行了全面对比，并根据总结出的优势和劣势，提出了一种全新架构，提升了模型的训练效率和多模态推理能力。

报告中还引入了一种1-D图块（tile）标签设计，可用于基于tile的动态高分辨率图像，能够显著提高多模态推理和与OCR相关任务的性能。

NVLM 1.0 系列包括 NVLM-D、NVLM-X 和 NVLM-H 三种主要架构。

NVLM-D：纯解码器模型，以统一的方式处理两种模式，因此特别擅长多模式推理任务。
NVLM-X：采用交叉注意机制，提高了处理高分辨率图像时的计算效率。
NVLM-H：混合了上述两种架构的优势，在保持文本推理所需的效率的同时，实现了更详细的图像理解。

NVLM 1.0 的一个显著特点是在训练过程中加入了高质量纯文本监督微调（SFT）数据，这使得这些模型在视觉语言任务中表现出色的同时，还能保持甚至提高纯文本性能。

在九个视觉-语言基准测试和四个纯文本基准测试上的结果显示：

NVLM-D1.0 72B 在 OCRBench（853）和 VQAv2（85.4）上取得了所有对比模型的最高分，其MMMU得分（59.7）也在该报告发布时显著超过了所有开源模型，包括LLaVAOneVision 72B（56.8）和InternVL-2-Llama3-76B（55.2）。在 AI2D、TextVQA、ChartQA 和 DocVQA 上，其表现仅略逊于表现最佳的 InternVL-2-Llama3-76B，与的 GPT-4o 相当，并显著优于其他开源模型。
NVLM-H1.0 72B 在所有开源多模态LLMs中取得了最高的MMMU（Val）得分（60.2），还在 NVLM-1.0 家族中取得了最佳的 MathVista 得分（66.6），已经超越了许多非常强大的模型，包括 GPT-4o、Gemini Pro 1.5（2024年8月）、InternVL-2-Pro，证明了其卓越的多模态推理能力。
NVLM-X1.0 72B 也取得了前沿级别的结果，并且作为同类中最佳的基于交叉注意力的多模态LLMs，能够与尚未发布的 Llama 3-V 70B 相媲美。NVLM-X1.0 还有一个优势：训练和推理速度更快。

以下是 NVLM-D1.0 72B 模型生成的定性示例。其展示了模型的各种能力，包括图表理解、OCR、定位、基于知识的图像描述、理解幽默、场景理解、数学推理和编码能力。

英伟达开发的 NVLM 1.0 模型代表了多模态大型语言模型的重大突破，该模型通过在多模态训练中集成高质量文本数据集，并采用动态平铺和高分辨率图像平铺标记等创新架构设计，解决了在不牺牲性能的前提下平衡文本和图像处理的关键难题。

02.腾讯 Oryx：多模态视觉理解模型

由腾讯出品的 Oryx 是一个多模态大语言模型（MLLM），旨在解决现有模型在处理不同分辨率和时长的视觉数据时的局限性。

Oryx 能够高效处理任意空间尺寸和时间长度的视觉输入，在同时处理图像、视频和 3D 数据上表现出色，实现了多模态理解的高效无缝处理。

论文地址：https://arxiv.org/abs/2409.12961
项目地址：https://github.com/Oryx-mllm/Oryx

Oryx 通过引入两个核心创新来实现对任意分辨率和时长的视觉输入的动态处理：

预训练的 OryxViT 模型：能够以任意分辨率将图像编码为适合LLM的视觉表示；
动态压缩模块：支持根据需求在1到16倍之间压缩视觉标记。

论文提供的多个图像/视频理解基准测试显示：Oryx 34B 远超所有开源 MLLM 模型，同时还超越了 OpenAI 的 GPT-4V，当然比起 GPT-4o 还是稍逊一筹。3D 空间理解的任务甚至比专门的理解 3D 的模型得分还要高。

03.MIT 推出 AgentTorch：将 ABM 扩展到数百万智能体

基于智能体（agent）的建模（ABM）试图通过模拟在环境中行动和互动的智能体集合来理解复杂系统的行为。它们的实用性要求在有效模拟百万规模种群的同时，捕捉真实的环境动态和自适应智能体行为。大语言模型（LLMs）的最新进展为通过使用 LLMs 作为智能体来增强 ABMs 提供了机会，LLMs 具有捕捉适应性行为的进一步潜力。然而，将 LLMs 用于大型群体的计算不可行性阻碍了它们的广泛应用。

麻省理工学院媒体实验室推出了 AgentTorch，一个开源平台，旨在解决大规模智能体模拟中的计算效率和行为表达挑战。

AgentTorch 是一个可以将 ABM 扩展到数百万智能体的框架，同时使用 LLMs 捕捉高分辨率智能体行为。

AgentTorch 优化了 GPU 的使用，能够高效地模拟整个城市或国家的行为。

AgentTorch 的设计原则包括可扩展性、可微分性、组合性和泛化性。

AgentTorch 关注如何有效捕捉智能体在复杂环境动态（如疫情）中的适应性行为，使研究者能够模拟数百万个智能体，分析其在不同社会和经济情境下的决策，为政策制定提供依据。

论文地址：https://arxiv.org/abs/2409.10568
GitHub 地址：https://github.com/AgentTorch/AgentTorch

04.字节跳动开源ABQ-LLM，效果和性能双SOTA

字节跳动提出了 ABQ-LLM。这是首个在 LLM 领域中实现量化推理自由的研究工作。

ABQ-LLM 是面向 AIGC 领域的算法系统协同优化工作，旨在解决 LLM 量化中存在的两大主要挑战：

低位量化致使的效果严重降低；
主流 GPU 对整数矩阵乘支持有限所引发的计算效率低下问题。

在推理引擎层面，研究者基于二值化矩阵乘（BTC）等价重构了任意精度组合的矩阵乘，从而突破了 INT4/INT8 计算单元的限制，开创性地实现了任意比特量化组合的直接加速，结合深度工程优化，实现了 decoding 阶段对 cutlass/cublas 加速库的大幅性能领先。

在算法方面，研究者运用了基于 transformer block 的分布纠正和低比特位平衡策略，有效提升低位量化效果。研究者在各类量化配置下均达成了 SOTA 的效果，综合模型效果优于 OmniQuant、AffineQuant 等前期工作，同时工程实现大幅超越 SmoothQuant，端到端综合性能超越 SmoothQuant 实现了 1.6X 的推理加速和 2.7X 的内存压缩。

图1.（左）算子级性能对比，ABQKernel 可以有效地将位宽收益转化为加速收益，以 W2A8 为例，相比 cutlass W8A8 具备 3.8~7.48 倍的单核加速；（右）端到端性能对比，在 fastertransformer 框架中，ABQ-LLM 相比业界 SOTA 的 SmoothQuant 方案实现了 1.6× 的推理加速和 2.7× 的内存压缩

论文地址：https://arxiv.org/abs/2408.08554
项目地址：https://github.com/bytedance/ABQ-LLM

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述