重磅升级！“现在，ChatGPT 能看、能听、能说了！”

OpenAIChatGPT升级：语音与图像功能详解及潜在风险

最新推荐文章于 2025-12-02 07:50:26 发布

转载最新推荐文章于 2025-12-02 07:50:26 发布 · 294 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzkxNjI3ODAwNw==&mid=2247568361&idx=2&sn=939dffc78f58963bedc09d7eb4d7743a&chksm=c151d471f6265d6708380a7a31600e72a777caf959cda831c5eb8dea14e44caf00bd25c4c6c7&scene=126&sessionid=0

文章标签：

#chatgpt

部署运行你感兴趣的模型镜像

整理 | 郑丽媛

出品 | 优快云（ID：优快云news）

近日，OpenAI 突然放了个大招：“ChatGPT 现在能看、能听、能说了！”

根据 OpenAI 官网宣布：ChatGPT 即将推出新的语音和图像功能，并将于未来两周内面向 Plus 和 Enterprise 用户推出。另外语音功能也将在 iOS 和 Android 上推出（可在设置中选择加入），而图像功能将在所有平台上推出。

如何使用新语音和图像功能？

“语音和图像功能，将为你在生活中使用 ChatGPT 提供更多方式。”为了证明新功能的实用性，OpenAI 例举了一些例子：

旅行时，拍下地标性建筑的照片，然后与 ChatGPT 聊聊其有趣之处；
在家时，拍下冰箱和储藏室的照片，让 ChatGPT 想出晚餐的菜谱；
晚饭后，帮孩子做一道数学题，拍下照片并圈出问题，让 ChatGPT 给出提示并帮助孩子解决问题。

（1）通过语音与 ChatGPT 对话

据介绍，ChatGPT 新增的语音功能由一个新文本到语音模型提供支持，能够仅通过文本和几秒钟的语音样本生成“类似人类的音频”，OpenAI 也请了专业配音演员合作创作了 5 种声音。与此同时，OpenAI 还用了其开源语音识别系统 Whisper 将语音转录为文本。

因此整体上来说，ChatGPT 的这个语音功能，使用方法跟手机上的语音助手类似，即用户点击按钮说话，ChatGPT 就会自动将其转换为文本，然后生成对应回答并将其转为语音。

如果你想使用语音功能，可以在手机的 ChatGPT App 的“设置”中找到“新功能”，选择“语音对话”后，点击屏幕右上角的耳机按钮，即可从 5 种不同的声音中选择你最喜欢的声音，进行来回对话。

除此之外，ChatGPT 还支持把已有文字转为对应语音，用户可下载这段语音或对其进行调速。

（2）在聊天中，用图像向 ChatGPT 提问

想使用 ChatGPT 图像功能的用户，可点击照片按钮拍照或选择本地图片，如果你使用的是 iOS 或 Android 系统，可点击加号按钮进行选择。

OpenAI 表示新增的图像功能由多模态 GPT-3.5 和 GPT-4 模型支持，可将语言推理能力应用于各种图像，如照片、屏幕截图以及包含文字和图像的文档。该功能上线后，用户可在提问中向 ChatGPT 展示一张或多张图片。如果想让 ChatGPT 注意到图片中的特定部分，也可以使用 App 中的绘图工具进行标注。

OpenAI 目标：“构建安全、有益的 AGI”

不过，正如 OpenAI 所说，其目标是“构建安全、有益的 AGI”，因此当 ChatGPT 涉及到语音和视觉的高级模型时，也提出了担忧：“这些功能也带来了新的风险。”

就语音功能而言，虽然该技术能从几秒钟的真实语音中制作出逼真的合成语音，为许多创造性和无障碍应用打开大门，但同时恶意行为者也可能借此冒充公众人物或实施欺诈。

考虑到这一点，OpenAI 只将这项技术用于语音聊天，且语音样本也是由直接合作的配音演员创建的。不过 OpenAI 透露 Spotify 正在将这项技术用于其语音翻译功能，即将播客内容翻译成其他语言后，合成播主自己的声音来讲述，从而扩大播客的影响力。

与之相似的，视觉功能也在日常生活中经常使用，为此 OpenAI 在进行更广泛的部署之前，与极端主义和科学能力等领域的风险研究人员以及测试者一起对模型进行了测试，确保能够在一些关键细节上保持一致，以实现“负责任的使用”：

OpenAI 与盲人和低视力者的免费手机应用 Be My Eyes 合作，了解其用途和局限性，并从中直接借鉴该应用的方法。
OpenAI 还采取了技术措施，极大限制了 ChatGPT 对于人的分析和直接陈述——“因为 ChatGPT 并不总是准确的，这些系统应尊重个人隐私。”

除此之外，OpenAI 提到 ChatGPT 背后模型的局限性很公开透明，因此不鼓励用户依赖 ChatGPT 来处理专业研究领域，尤其是未经适当验证的高风险用例。另外，ChatGPT 新增语音功能的背后，其模型更为精通英语文本的转录，因此 OpenAI 提醒到：“但对于其他一些语言，尤其是非罗马字母的语言，（ChatGPT）表现不佳，我们建议非英语用户不要将 ChatGPT 用于此目的。”

网友吐槽：“这个演示效果，似乎不怎么样啊？”

ChatGPT 的这个重磅升级，吸引了不少网友的关注，但不同于 OpenAI 的自信，不少网友指出了该公告中的演示效果，似乎“不怎么样”：

“语音功能好像还不错，但这个演示对我来说，看起来似乎不怎么样，因为提问和响应之间存在数秒的延迟，导致 ChatGPT 就像其他所有蹩脚的语音助手一样。”
“没错，按理说它应该在我说完之后就立刻回答我，我也可以在中间打断它。我不想考虑如何根据显式呼叫/响应链来构建交互，也不想非常小心地总是说话。”
“我认为现在需要的是一个语音对话轮流数据集和模型，这也是目前现有的语音识别系统中所缺失的——真正自然的语音对话系统，应该就是为这些模型解锁一组全新的用户和用例。对于像 OpenAI 这样的公司来说，构建这样一个模型应该不太难吧。”

同时，也有部分用户认为，ChatGPT 新推出的这一功能，或将“杀死”不少基于 ChatGPT 开发类似功能的初创公司：