OpenAI 再次刷新认知边界：GPT-4 颠覆语音助手市场，流畅度直逼真人互动？

本文链接：https://blog.youkuaiyun.com/yxd179/article/details/139242992

前言

近日，美国人工智能研究公司 OpenAI 发布了其最新旗舰模型 GPT-4o，这一革命性的进展不仅标志着人工智能领域的新突破，更预示着即将步入一个全新的交互时代？GPT-4o 的发布，对于我们来说，意味着人工智能将更加深入地融入日常生活，改变我们的工作、学习和交流方式。

GPT-4o 简介

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入，平均为 320 毫秒，这类似于人工响应时间（在新窗口中打开）在对话中。它在英语文本和代码上的 GPT-4 Turbo 性能相匹配，在非英语语言的文本上也有显著改进，同时在 API 中也更快且便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

GPT-4o 作为 OpenAI 的全新力作，其“o”代表Omni，即全能的意思。根据其官网介绍该模型能够实时进行音频、视觉和文本推理，接受任何形式的文本、音频和图像组合作为输入，并生成相应的输出。那种这种全能性或将使得 GPT-4o 在人工智能领域中独树一帜，为用户提供了更加自然、流畅的交互体验。

GPT-4o 功能

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 交谈，平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。为了实现这一点，语音模式是一个由三个独立模型组成的管道：一个简单的模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着智能的主要来源 GPT-4 会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音，也无法输出笑声、歌声或表达情感。

借助 GPT-4o，我们在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。因为 GPT-4o 是我们第一个结合了所有这些模式的模型，所以我们仍然只是在探索该模型可以做什么及其局限性的表面。