视觉 ChatGPT：GPT-4 的“预览”？

最新推荐文章于 2025-03-28 10:10:56 发布

原创最新推荐文章于 2025-03-28 10:10:56 发布 · 270 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#bard #AI作画 #文心一言 #DALL·E 2 #stable diffusion

Visual Chat GPT: 窥探 GPT-4 多模态能力的窗口

近期，关于 GPT-4 可能成为一个多模态语言模型的传言甚嚣尘上。与仅限于文本的 GPT-3.5 和 ChatGPT 不同，微软发布的 Visual Chat GPT 可能预示着大型多模态语言模型 GPT-4 的雏形。

尽管两者之间可能没有直接关联，但 Visual Chat GPT 为 ChatGPT 带来了一些有趣的可能性，例如图像编辑和理解，并为我们提供了一窥 GPT-4 的能力。

Visual Chat GPT 最引人注目的地方在于它有效地将图像信息转化为语言。虽然 ChatGPT 本身对视觉信息的处理能力有限，但 Visual Chat GPT 中提出的“提示管理器”可以整合多达 22 个视觉基础模型，包括文本转图像、控制网络和像素转像素等功能，并将图像的全部视觉信号转换为 ChatGPT 可以理解的语言。

尽管这看起来像是 ChatGPT 仍然通过文本理解事物的强制性变通方法，但提示管理器却执行了各种任务，将非语言信息转化为 ChatGPT 可以理解的内容。例如，在上传图像时，提示管理器会合成一个包含图像文件名的内部聊天记录，以便 ChatGPT 可以准确地引用它。此外，它还支持链式操作，即提示管理器可以对多个过程进行排序和组织，从而实现场景中对象的改变，同时使用不同的视觉基础模型改变其风格。图像名称会充当操作历史，这是一种保存信息的有趣方式。此外，还会添加一些硬编码问题作为内部想法，例如询问是否需要使用此工具才能让 ChatGPT 调用正确的 VFM 操作。

在最佳情况下，Visual Chat GPT 与用户之间可以进行多轮对话，使其能够理解人类意图，支持语言和图像输入，并完成复杂的视觉任务，例如生成、提问和编辑。然而，仍然存在一些挑战，例如命名正确文件、区分正确文件名、调用正确函数、链接正确的 VFM、与 ChatGPT 正确通信等。虽然我们知道 ChatGPT 有时在遵循或生成非常严格和具体的指令方面表现很差，所以你对 Visual Chat GPT 的期望不应该高于此。

另一方面，观看 Visual Chat GPT 的演示可能会让你对它的实际能力产生误解，例如，只展示经过精心挑选的结果，这有时是件坏事，但它们仍然能够做到演示中展示的内容。或者它们真的能做到吗？当我要求生成一个蛋糕时，它却生成了一张角色表。所以这是一个彻头彻尾的谎言。

我在 Windows 机器上运行了 Visual Chat GPT，有趣的是，为了处理所有 22 个 VFM 函数，你需要一个 A100 显卡。