OpenAI发布了强大的人工智能模型GPT-4o，开启了AI新纪元，并带来了前所未有的人机互动体验。

最新推荐文章于 2024-06-12 22:49:55 发布

GoMaxAi

最新推荐文章于 2024-06-12 22:49:55 发布

阅读量1.1k

点赞数 27

文章标签：人工智能 chatgpt 实时音视频

本文链接：https://blog.youkuaiyun.com/GoMaxAi/article/details/138942840

版权

2024年5月14日，OpenAI推出了其最新的旗舰模型——**GPT-4o**。不同于传统的AI搜索引擎或预期中的GPT-5，GPT-4o在功能上取得了重大突破，将文本、视觉和音频理解融合在一个模型中。让我们深入了解这一革命性的AI。

“o”代表什么？

GPT-4o中的“o”代表“omni”，象征其全能的能力。与以往的模型相比，GPT-4o在视觉和音频理解方面表现尤为突出。它可以实时处理文本、音频和视觉输入，接受这些模态的任意组合，并生成相应的输出。令人惊叹的是，它的响应时间仅为232毫秒，接近人类的对话速度。

从Voice Mode到GPT-4o

在GPT-4o之前，用户可以使用Voice Mode与ChatGPT进行交互，但平均延迟为2.8秒（对于GPT-3.5）和5.4秒（对于GPT-4）。这个过程包括将音频转录为文本，由GPT-3.5或GPT-4处理文本，然后再将输出转换回音频。然而，这种方法会丢失关键信息，如音调、多个说话者、背景噪音以及细微的表情，比如笑声或歌唱。

GPT-4o：端到端解决方案

GPT-4o是一个端到端的解决方案，将文本、视觉和音频处理无缝集成在一起。现在，所有输入和输出都通过一个神经网络处理。这是一个重要的里程碑——首个结合这些模态的模型。OpenAI继续探索模型的功能和局限性。

发布会要点

新款 GPT-4o 模型：实现了任何文本、音频和图像输入的无缝对接，可直接生成相应的输出，无需中间转换。
GPT-4o 的语音延迟显著降低，能在 232 毫秒内回应音频输入，平均响应时间为 320 毫秒，这与人类对话的响应时间相似。
GPT-4 向所有用户免费开放。
GPT-4o API，比 GPT-4 Turbo 快 2 倍，价格低 50%。
惊艳的实时语音助手演示：对话更加拟人化、能实时翻译，识别表情，并能通过摄像头识别画面、编写代码、分析图表。
ChatGPT 新 UI，更加简洁。
新的 ChatGPT

最低0.47元/天解锁文章