重磅升级!“现在,ChatGPT 能看、能听、能说了!”

OpenAIChatGPT升级:语音与图像功能详解及潜在风险
部署运行你感兴趣的模型镜像

03fbfa1bbc86f17ae9fc2dd99d495e1d.gif

整理 | 郑丽媛

出品 | 优快云(ID:优快云news)

近日,OpenAI 突然放了个大招:“ChatGPT 现在能看、能听、能说了!”

25d9a72895885663ac4e04b3be53e5f0.png

根据 OpenAI 官网宣布:ChatGPT 即将推出新的语音和图像功能,并将于未来两周内面向 Plus 和 Enterprise 用户推出。另外语音功能也将在 iOS 和 Android 上推出(可在设置中选择加入),而图像功能将在所有平台上推出。

185ebe06b36c62e088db24183367772c.png

如何使用新语音和图像功能?

“语音和图像功能,将为你在生活中使用 ChatGPT 提供更多方式。”为了证明新功能的实用性,OpenAI 例举了一些例子:

  • 旅行时,拍下地标性建筑的照片,然后与 ChatGPT 聊聊其有趣之处;

  • 在家时,拍下冰箱和储藏室的照片,让 ChatGPT 想出晚餐的菜谱;

  • 晚饭后,帮孩子做一道数学题,拍下照片并圈出问题,让 ChatGPT 给出提示并帮助孩子解决问题。

(1)通过语音与 ChatGPT 对话

据介绍,ChatGPT 新增的语音功能由一个新文本到语音模型提供支持,能够仅通过文本和几秒钟的语音样本生成“类似人类的音频”,OpenAI 也请了专业配音演员合作创作了 5 种声音。与此同时,OpenAI 还用了其开源语音识别系统 Whisper 将语音转录为文本。

因此整体上来说,ChatGPT 的这个语音功能,使用方法跟手机上的语音助手类似,即用户点击按钮说话,ChatGPT 就会自动将其转换为文本,然后生成对应回答并将其转为语音。

如果你想使用语音功能,可以在手机的 ChatGPT App 的“设置”中找到“新功能”,选择“语音对话”后,点击屏幕右上角的耳机按钮,即可从 5 种不同的声音中选择你最喜欢的声音,进行来回对话。

除此之外,ChatGPT 还支持把已有文字转为对应语音,用户可下载这段语音或对其进行调速。

(2)在聊天中,用图像向 ChatGPT 提问

想使用 ChatGPT 图像功能的用户,可点击照片按钮拍照或选择本地图片,如果你使用的是 iOS 或 Android 系统,可点击加号按钮进行选择。

OpenAI 表示新增的图像功能由多模态 GPT-3.5 和 GPT-4 模型支持,可将语言推理能力应用于各种图像,如照片、屏幕截图以及包含文字和图像的文档。该功能上线后,用户可在提问中向 ChatGPT 展示一张或多张图片。如果想让 ChatGPT 注意到图片中的特定部分,也可以使用 App 中的绘图工具进行标注。

a7dcaaa0dc5b09c43a1e1d9f3b2b8396.png

OpenAI 目标:“构建安全、有益的 AGI”

不过,正如 OpenAI 所说,其目标是“构建安全、有益的 AGI”,因此当 ChatGPT 涉及到语音和视觉的高级模型时,也提出了担忧:“这些功能也带来了新的风险。”

就语音功能而言,虽然该技术能从几秒钟的真实语音中制作出逼真的合成语音,为许多创造性和无障碍应用打开大门,但同时恶意行为者也可能借此冒充公众人物或实施欺诈。

考虑到这一点,OpenAI 只将这项技术用于语音聊天,且语音样本也是由直接合作的配音演员创建的。不过 OpenAI 透露 Spotify 正在将这项技术用于其语音翻译功能,即将播客内容翻译成其他语言后,合成播主自己的声音来讲述,从而扩大播客的影响力。

与之相似的,视觉功能也在日常生活中经常使用,为此 OpenAI 在进行更广泛的部署之前,与极端主义和科学能力等领域的风险研究人员以及测试者一起对模型进行了测试,确保能够在一些关键细节上保持一致,以实现“负责任的使用”:

  • OpenAI 与盲人和低视力者的免费手机应用 Be My Eyes 合作,了解其用途和局限性,并从中直接借鉴该应用的方法。

  • OpenAI 还采取了技术措施,极大限制了 ChatGPT 对于人的分析和直接陈述——“因为 ChatGPT 并不总是准确的,这些系统应尊重个人隐私。”

除此之外,OpenAI 提到 ChatGPT 背后模型的局限性很公开透明,因此不鼓励用户依赖 ChatGPT 来处理专业研究领域,尤其是未经适当验证的高风险用例。另外,ChatGPT 新增语音功能的背后,其模型更为精通英语文本的转录,因此 OpenAI 提醒到:“但对于其他一些语言,尤其是非罗马字母的语言,(ChatGPT)表现不佳,我们建议非英语用户不要将 ChatGPT 用于此目的。”

968b5f7d8e3226827aecfd08bad0352e.png

网友吐槽:“这个演示效果,似乎不怎么样啊?”

ChatGPT 的这个重磅升级,吸引了不少网友的关注,但不同于 OpenAI 的自信,不少网友指出了该公告中的演示效果,似乎“不怎么样”:

  • “语音功能好像还不错,但这个演示对我来说,看起来似乎不怎么样,因为提问和响应之间存在数秒的延迟,导致 ChatGPT 就像其他所有蹩脚的语音助手一样。”

  • “没错,按理说它应该在我说完之后就立刻回答我,我也可以在中间打断它。我不想考虑如何根据显式呼叫/响应链来构建交互,也不想非常小心地总是说话。”

  • “我认为现在需要的是一个语音对话轮流数据集和模型,这也是目前现有的语音识别系统中所缺失的——真正自然的语音对话系统,应该就是为这些模型解锁一组全新的用户和用例。对于像 OpenAI 这样的公司来说,构建这样一个模型应该不太难吧。”

同时,也有部分用户认为,ChatGPT 新推出的这一功能,或将“杀死”不少基于 ChatGPT 开发类似功能的初创公司:

  • “这个公告似乎已经杀死了许多试图在 ChatGPT 之上进行多模态的初创公司。我已经可以看到“Alexa / Siri / Google Home”的替代品、“谷歌图像搜索”的替代品,另外通过拍照来解决 AI 问题的初创公司也注定要失败。”

那么基于 OpenAI 展示的演示效果,你对 ChatGPT 新推出的语音和图像功能又有何看法呢?

参考链接:

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

https://news.ycombinator.com/item?id=37642335

推荐阅读:

GPT-4 帮助员工绩效提升 40%!

40 亿美元!亚马逊投资 OpenAI 最强竞品

大厂向被裁员工「重伸橄榄枝」,暗里降薪 20% ?

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型,用户只需输入视频和文字,就能为视频匹配电影级音效

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值