法国 AI 实验室 Kyutai 发布实时语音开源模型,功能超过 GPT-4o

法国非营利 AI 研究实验室 Kyutai 推出了 Moshi,这是一款实时原生多模态基础 AI 模型。这个开源项目具备语音功能的 AI 助手,其能力超越了 OpenAI 的 GPT-4o 和 Google Astra。

Moshi 基于 Helium 7B 模型构建,能以各种口音和 70 种情感和风格说话,并能同时处理两个音频流。Moshi 还集成了文本和音频训练,能在 200 毫秒内实现实时互动,优化了多种后端,可以在笔记本电脑上运行而无需云端交互。Kyutai 将 Moshi 开源,并计划加入 AI 音频识别和水印功能。Moshi 的语音模式令人印象深刻,Kyutai 计划发布完整模型,目标是促进 AI 开放研究和生态系统发展,还可能会推动其他语音助手的开发。

阅读更多:法国 AI 实验室 Kyutai 发布实时语音开源模型,功能超过 GPT-4o

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值