高性能计算与多模态处理的探索之旅：英伟达GH200性能优化与GPT-4V的算力加速未来

最新推荐文章于 2025-10-24 09:27:13 发布

原创

最新推荐文章于 2025-10-24 09:27:13 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#多模态大模型

本文聚焦多模态大模型，深入分析GPT-4V的输入模式、工作方式、视觉语言能力等。探讨多模态对算力的影响，指出其训练和推理阶段算力需求大幅提升。还介绍了英伟达GH200芯片优势及蓝海大脑大模型训练平台特点和配置。

★多模态大模型；GPU算力；LLMS；LLM；LMM；GPT-4V；GH200；图像识别；目标定位；图像描述；视觉问答；视觉对话；英伟达；Nvidia；H100;L40s；A100;H100；A800；H800，AI算力，AI算法

随着人工智能技术的不断发展，多模态大模型成为越来越重要的发展趋势。多模态大模型通过融合视觉等多种感知能力来扩展语言模型，实现更强大的通用人工智能。GPT-4V（GPT-4 近日开放的视觉模态）大型多模型（LMMs）扩展大型语言模型（LLMs）以增强多感知技能（如视觉理解等）从而实现更强大的通用智能。本文着重对GPT-4V进行深入分析，以进一步深化对LMM的理解。在此本文分析核心是GPT-4V可以执行的任务，同时包含用于探测其能力质量和通用性的测试样本。

研究结果表明，GPT-4V在处理交错多模态输入方面有着前所未有的能力，并且其通用性使其成为一个强大的多模态综合智能系统。GPT-4V的独特能力主要表现在理解输入图像上绘制的视觉标记，同时还能产生新的人机交互方法如视觉指引提示。本文将探讨GPT-4V的初步探索、多模态对算力影响、英伟达最强AI芯片GH200究竟强在哪里，以及蓝海大脑大模型训练平台等多个方面的内容。

GPT-4V的初步探索

本文采用定性案例设计方法，对GPT-4V进行全面探索。着重以案例方式进行评估，而非传统的定量评测，旨在激发后续研究建立针对大型多模态模型的评估基准。考虑到不同的交互模式可能会对模型表现产生影响，因此主要采用零样本提示的方式，以减少对上下文示例的依赖，从而更好地评估GPT-4V独立处理复杂多模态输入的能力。

一、GPT-4V的输入模式

GPT-4V是一个文本输入的单模型语言系统，同时具备接受图像-文本对输入的能力。作为纯文本输入模型，GPT-4V表现出强大的语言处理能力。对于文本输入，GPT-4V只需要纯文本输入和输出即可完成各种语言和编码任务。GPT-4V的另一个应用模式是接受单个图像-文本对输入，可以完成各种视觉及视觉语言任务（如图像识别、目标定位、图像描述、视觉问答、视觉对话以及生成密集式图像描述等）。此外，GPT-4V还支持交错的图像-文本输入模式，这种灵活的输入方式使其具有更广泛的应用场景，比如计算多张收据图片的总税额、从多图片中提取查询信息，以及关联交错的图像文本信息等。处理这种交错输入也是少样本学习和其他高级提示技术的基础，从而进一步增强GPT-4V的适用范围。

GPT-4V支持使用多图像和交错图像-文本输入

二、GPT-4V的工作方式和提示技术

GPT-4V可以理解并遵循文本指令，生成所需的文本输出或学会完成一项新任务。红色表示信息较少的答案。

GPT-4V的独特优势在于其强大自然语言指令理解和遵循能力。指令可以用自然语言形式规定各种视觉语言任务所需的输出文本格式。此外，GPT-4V能够通过理解复杂指令来完成具有挑战性的任务，如包含中间步骤的抽象推理问题。GPT-4V具有适应未知应用和任务的巨大潜力。

1、视觉指向和视觉引用提示

指点是人与人之间互动的基本方面，为提供可比的交互渠道，探索各种形式的“指点”来表示图片中的空间兴趣区域（如数字坐标框、箭头、框、圈、手绘等）。鉴于图像上绘制的灵活性，提出一种新的提示方式即“视觉指代提示”，通过编辑输入图像的像素来指定目标（如画视觉指示器或手写场景文字）。不同于传统文本提示，视觉指代提示通过图像像素编辑来完成任务。例如：可以基于画出的对象生成简单描述，同时保持对整体场景的理解，或者将指定对象与场景文本索引关联起来，或者回答贴边或刁钻角度的问题等。

2、视觉+文本提示

视觉引用提示可以与其他图像文本提示结合使用，呈现简洁细致的界面。GPT-4V展现出强大的提示灵活性，特别是在集成不同输入格式以及无缝混合指导方面。GPT-4V具有强大的泛化性和灵活性，可以像人类一样理解多模态指令，并具有适应未知任务的能力。

同时GPT-4V能处理多模态指令（包括图像、子图像、文本、场景文本和视觉指针），这使其具有更强的扩展能力和通用性。此外，GPT-4V可将抽象语言指令与视觉示例关联，作为多模态演示，这比仅文本指令或上下文少样本学习更符合人类学习方式。

约束提示以JSON格式返回。图像是样本的示例id。红色的突出显示错误的答案。

在大型语言模型（LLM）中，The_Dawn_of_LMMs：Preliminary_Explorations_with_GPT-4V(ision)报告中观察到一种新的上下文少样本学习能力，即LLM可以通过添加格式相同的上下文示例生成预期输出，无需参数更新。类似的能力也在多模态模型中被观察到，查询输入为格式化的图像-文本对。展示GPT-4V的上下文少样本学习能力，强调在某些情况下，充分的示例数量至关重要，特别是在零射或一射指令不足时。

例如，在速度计的复杂场景中，GPT-4V在提供2个上下文示例后成功预测正确读数。在另一个多步推理的线图案例中，只有在给出额外示例的二射提示下，GPT-4V才能得出正确结论。这些验证实例展示了上下文少样本学习对提升LMM性能的重要作用，成为可行的微调替代选择。

在读取速度计的挑战性场景下的零射击性能。GPT-4V即使采用不同的提示方式，也能够准确读取速度表并避免失败。红色表示错误的答案。

三、视觉语言能力

1、不同域的图像描述

GPT-4V在处理“图像-文字对”输入时的能力和泛化性。要求其生成自然语言描述并涵盖以下主题：名人识别、地标识别、食物识别、医学图像理解、Logo识别、场景理解和逆向示例。

名人识别方面，GPT-4V能够准确识别不同背景的名人并理解场景与背景信息，例如在2023年G7峰会上识别总统演讲。

地标识别方面，GPT-4V可以准确描述地标并生成生动详细的叙述，捕捉地标本质。

食物识别方面，GPT-4V能够准确识别各种菜肴并捕捉菜肴的复杂细节。

医学图像理解方面，GPT-4V可以识别X光牙齿结构并能根据CT扫描判断潜在问题。

Logo识别方面，GPT-4V可以准确描述Logo的设计和含义。

场景理解方面，GPT-4V可以描述道路场景中的车辆位置、颜色并读取路标限速提示。

逆向示例方面，当遇到误导性问题时，GPT-4V可以正确描述图像内容，不被误导。