一、前言
OpenAI 推出了其最新的 AI 模型——GPT-4o,此次发布的并非 GPT-4.5 或 GPT-5,而是一款全新的“全模态模型(Omnimodel)”。这是一个将文本、语音和视觉能力集成到单一无缝 AI 体验中的突破性发展。 GPT-4o 于 2024 年 5 月 14 日发布,其中的 “o” 代表 “omni”,预示着人机交互方式的一次重大变革,使得交互过程更加自然和直观。

GPT-4o 能够直接理解语音和视觉输入,并在语音模式下与用户进行实时交互,无需像之前那样先将音频转换为文本再生成回复,因此 ChatGPT 的语音回复速度得到了显著提升。

Altman 在他的博客文章中探讨了 GPT-4o 作为人机交互界面的潜力。以下是他对 GPT-4o 语音和视频功能的见解:
GPT-4o 显然还没有达到电影《Her》中的智能水平(或像 Skynet 那样的高级智能),但它已经超越了现有的所有模型,并在效率上迈出了重要的一步(OpenAI 并未透露他们是如何做到的)。GPT-4o 的出现也打破了人们的普遍看法,即 GPT-4 类型的模型已经是大型语言模型所能达到的最高水平。许多人在这一点上似乎都判断错了。
我对 GPT-4o 的初步印象可以归纳为三点:
- 首先,将全球最顶尖的 AI 模型免费提供给公众,这一举措是其他公司难以匹敌的,它彻底改变了我们对今年 AI 领域发展趋势的所有预测。
- 其次,GPT-4o 的语音和视频功能,如果真如演示中所展示的那样,能够模拟人类的举止、情感以及实时的节奏,这将使我首次真正考虑将其作为一个助手来使用。
- 第三,如果 OpenAI 能够与苹果达成合作,成功地将 GPT-4o 集成到设备中,取代现有的 Siri,那么对于 Google、Meta、Anthropic 等其他竞争者来说,无疑是一个巨大的挑战。
二、关于 GPT-4o
GPT-4o 在 GPT-4 的基础上进行了升级,保持了相似的智能水平,同时在文本、语音和视觉处理上都取得了显著进步。 OpenAI 的首席技术官 Mira Murati 在一次直播演示中指出了这一进步的重要性:“GPT-4o 能够同时处理语音、文本和视觉信息,这对于我们未来与机器的互动方式至关重要。” 相较于之前的 GPT-4 Turbo 加强版,GPT-4o 通过整合语音功能,将语音集成到多模态模型中,进一步拓宽了应用范围。 现在,用户可以更加自然地与 ChatGPT 进行互动,享受到即时的反馈和动态参与的能力。GPT-4o 甚至能够识别语音的微妙变化,并以不同的情感风格生成回应,包括唱歌。
GPT-4o 能够提供

最低0.47元/天 解锁文章
4221





