视觉 ChatGPT:GPT-4 的“预览”?

Visual Chat GPT: 窥探 GPT-4 多模态能力的窗口

近期,关于 GPT-4 可能成为一个多模态语言模型的传言甚嚣尘上。与仅限于文本的 GPT-3.5 和 ChatGPT 不同,微软发布的 Visual Chat GPT 可能预示着大型多模态语言模型 GPT-4 的雏形。

尽管两者之间可能没有直接关联,但 Visual Chat GPT 为 ChatGPT 带来了一些有趣的可能性,例如图像编辑和理解,并为我们提供了一窥 GPT-4 的能力。

Visual Chat GPT 最引人注目的地方在于它有效地将图像信息转化为语言。虽然 ChatGPT 本身对视觉信息的处理能力有限,但 Visual Chat GPT 中提出的“提示管理器”可以整合多达 22 个视觉基础模型,包括文本转图像、控制网络和像素转像素等功能,并将图像的全部视觉信号转换为 ChatGPT 可以理解的语言。

尽管这看起来像是 ChatGPT 仍然通过文本理解事物的强制性变通方法,但提示管理器却执行了各种任务,将非语言信息转化为 ChatGPT 可以理解的内容。例如,在上传图像时,提示管理器会合成一个包含图像文件名的内部聊天记录,以便 ChatGPT 可以准确地引用它。此外,它还支持链式操作,即提示管理器可以对多个过程进行排序和组织,从而实现场景中对象的改变,同时使用不同的视觉基础模型改变其风格。图像名称会充当操作历史,这是一种保存信息的有趣方式。此外,还会添加一些硬编码问题作为内部想法,例如询问是否需要使用此工具才能让 ChatGPT 调用正确的 VFM 操作。

在最佳情况下,Visual Chat GPT 与用户之间可以进行多轮对话,使其能够理解人类意图,支持语言和图像输入,并完成复杂的视觉任务,例如生成、提问和编辑。然而,仍然存在一些挑战,例如命名正确文件、区分正确文件名、调用正确函数、链接正确的 VFM、与 ChatGPT 正确通信等。虽然我们知道 ChatGPT 有时在遵循或生成非常严格和具体的指令方面表现很差,所以你对 Visual Chat GPT 的期望不应该高于此。

另一方面,观看 Visual Chat GPT 的演示可能会让你对它的实际能力产生误解,例如,只展示经过精心挑选的结果,这有时是件坏事,但它们仍然能够做到演示中展示的内容。或者它们真的能做到吗?当我要求生成一个蛋糕时,它却生成了一张角色表。所以这是一个彻头彻尾的谎言。

我在 Windows 机器上运行了 Visual Chat GPT,有趣的是,为了处理所有 22 个 VFM 函数,你需要一个 A100 显卡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bycloudAI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值