实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍-优快云博客

本文链接：https://blog.youkuaiyun.com/2403_86950003/article/details/144342286

算起来，距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间，AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。

不过，由于语音大模型在训练、部署、交互等层面相较于语言、图像大模型更难，因此这个赛道的玩家并不多。可以看到，目前唯一有能力抗衡 GPT-4o 的恐怕只有谷歌的 Gemini Live 了。

如今，这对「冤家」都在忙着扩大用户生态。OpenAI 向各类付费用户开放了 GPT-4o 语音功能，并与苹果合作接入到了 Siri 中。谷歌先是允许所有安卓用户访问 Gemini Live 语音功能，并于近日支持 iOS 用户与该语音助手交流。

与此同时，国内一些厂商陆续推出了类似的实时语音对话大模型及应用，比如智谱、科大讯飞等，填补了一些空白。如今，这个赛道又迎来了一个有实力的新玩家 —— 它就是昆仑万维开发的 Skyo 实时语音对话助手。

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏退出全屏

机器之心已关注

分享视频

，时长00:05

0/0

00:00/00:05

切换到横屏模式

继续播放

进度条，百分之0

播放

00:00

00:05

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

您的浏览器不支持 video 标签

继续观看

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

观看更多

转载

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

机器之心已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

声音听起来还不错吧！Skyo 内置了非常清亮、爽朗的男声。

Skyo 基于背后的天工大模型 4.0 4o 版（Skywork 4o）打造。从名称上看，Skyo 中的「o」同样代表了 omni 的意思，并落在语音对话场景，直接对标了 GPT-4o。从定位和功能上看，作为一个智能语音互动产品，Skyo 具备了快速响应、实时打断、情感化反应、真实内容互动和个性化声音定制等多样化的功能。

可以说，用户想要在 AI 语音对话中体验的场景和功能，Skyo 基本上都能 hold，还针对当前 AI 语音助手存在的一些痛点进行了优化。

实时对话 AI

一要准、二要快

与传统语音助手的主要区别在于，基于大模型开发的 AI 实时语音对话助手能够应对更复杂的语境、执行更个性化的任务，并开始从「工具」的属性过渡到「人类伴侣」。

自 GPT-4o 之后，语音交互场景的 AI 具备了前所未有的感知能力，在更智能化、更多面手之外，不仅响应延迟明显降低了，还能准确读懂用户的情感语调，如兴奋、高兴或悲伤，并以逼真的方式模仿和回应。

不过，随着更多用户体验到 GPT-4o 语音功能，它的一些缺点陆续显露了出来，比如不擅长识别自然停顿、无法准确响应要求的话题等。

同样地，此后出现的一系列对标 GPT-4o 的产品，如谷歌 Gemini Live、法国开源 AI 研究实验室 Kyutai 的 Moshi 等，虽然都宣称要打造自然流畅的 AI 对话，但从用户反馈来看，依然存在着一些直接影响对话体验的短板，比如可用性差、中断频繁和延迟严重等。

当然，面对 AI 实时语音对话助手的常见通病，Skyo 也需要尽力去克服。究竟效果怎么样呢？我们还是得看它的现场表现。

一手实测

会念诗、还拿捏住了拟人化

在与 Skyo 来了场面对面的交谈后，我们收获了一些小惊喜。

首先，我们来咨询 Skyo 一些健康常识问题，他回答的比较合理、全面，也有侧重性。当中，我们在他没有回答完上个问题的时候，就开始了下个问题，他衔接得挺好。这说明了 Skyo 能够轻松应对用户打断场景，并在两个问题之间顺滑地切换。

我们还发现，Skyo 的回答中出现了类似于人类日常交谈中常用到的「呃」，这代表了他是在思考后才回答的。语气也不像机器人那样机械、僵硬、冷冰冰，会出现「哎呀」等感叹词，拟人化属性很强

这样一个男女声自由切换、会安慰人、会念诗、还能知晓天下事的国产 AI 聊天搭子，如何炼成的呢？

以上 Skyo 各项能力的实现要归功于其采用了先进的端到端实时语音建模技术，其中框架链路自研并保持业界领先。这样一来，在高精度理解用户语音输入内容（即听得准）的基础上，做出比较快速的响应（即答得快），响应时间一般在 1 秒左右。

另外，得益于昆仑万维在自研语音技术框架、大模型训练以及数据积累上的厚积薄发，Skyo 还能够在高强度对话中保持稳定性和流畅性，并在情绪表达、实时交互等方面更加契合用户需求。

不过，我们也得承认，现阶段 Skyo 的功能并不完善，在回复的过程中偶尔也会出现声音的扭曲失真，但这都是进化路上所要经历的。

未来，Skyo 将继续修炼自己，并发力多语言支持、主动交流、音乐生成等更丰富的功能。我们可以狠狠期待一波了。

当 Scaling Law 放缓

多模态 AI 应用势在必行

最近，Scaling Law「撞墙」的消息开始在 AI 社区传播，领域顶级玩家 OpenAI、谷歌和 Anthropic 均被曝出在开发更先进模型时遇到了不小的困难，比如 OpenAI 内部代号「Orion」的新模型没有达到预期训练效果。

虽然之后这一观点遭到了一些人的驳斥，但不可否认的是，随着互联网高质量数据逐渐匮乏、主流大模型训练没有跳出 Transformer 架构等因素的影响，大模型开发速度的放缓似乎是必然的。

奥特曼：「墙」不存在。

相反，基于大模型的 AI 应用正在走向百花齐放，比如搜索引擎、音乐生成、语音交互、智能体，可以拓展生成式 AI 的落地场景并重塑人机交互范式，带来多样化 AI 体验和生产力提升。因此，在保证基座模型性能「不掉队」的前提下，形成完整的应用矩阵，对于想要持续站稳脚跟的厂商来说尤为重要。

在这方面，昆仑万维可以说布局较早且合理。一方面，自研天工系列基座大模型已经发展到 4.0 版本，性能处于全球领先水平。另一方面，构建了清晰、多元的 AI 业务矩阵，在天工 AI 平台集成了 AI 搜索、AI 文档-音视频分析、AI 写作、AI 音乐、AI 图片生成等主流 AIGC 应用。模型与应用两手抓，两手都要硬。

此次，Skyo 实时语音对话助手是昆仑万维抢占 AI 语音交互应用市场、布局多模态的又一举措。与不久之前上线的天工 AI 高级搜索功能一样，也将成为构筑全栈式大模型能力堆栈的重要一环。

我们了解到，Skyo 实时语音对话助手将于近期上线天工 App，并接入天工搜索以获取更准确的实时资讯。可以预见，此举将进一步丰富天工平台的功能，让用户打开手机就能体验到 AI 原生实时对话的乐趣。

回望年初，昆仑万维提出了「实现通用人工智能，让每个人更好地塑造和表达自我」的全新使命。为此，该公司以天工 AI 平台为主阵地，对其上的 AI 应用不断进行功能上的迭代更新，深拓大模型能力释放出口，将新世代的人机交互贯穿文本、图像、语音等更全模态。

未来，昆仑万维还将继续发力实时图像与视频理解等领域，并形成开箱即用的 AI 应用，从而在创新技术进步、全面满足用户 AIGC 需求的过程中加快迈向 AGI 的步伐。