雷朋 Meta 眼镜视觉识别功能开放测试；Ultravox 新版语音模型：语音理解超 GPT-4o 和 Gemini

RTE开发者社区

于 2025-02-12 18:01:54 发布

阅读量825

点赞数 29

CC 4.0 BY-SA版权

文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/agora_cloud/article/details/145596951

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@鲍勃

01 有话题的技术

1、Ultravox v0.5 发布：端到端语音模型，语音理解超越 GPT-4o 和 Gemini 1.5 Flash

在这里插入图片描述

Ultravox v0.5 开源语音语言模型在去年发布 v0.4.1 的基础上，v0.5 大幅提升了语音理解能力、多语言支持以及在真实场景中的适应能力。该版本在语音理解基准测试中超越了 OpenAI 的 GPT-4o Realtime 和 Google 的 Gemini 1.5 Flash，同时保留了开源模型的灵活性和透明性。模型权重现已发布，可通过 Hugging Face 获取。

技术亮点：

CoVoST-2 & Big Bench Audio 领先： 在多语言语音翻译和基于语音的推理任务中表现卓越。
转录性能大幅提升： 在 LibriSpeech、CommonVoice 和 Fleurs 的 82 个评估集上，单词错误率（WER）降低 60%。
语音问答能力增强： 在命名实体识别等任务中，性能提升 18%。
广泛的多语言支持： 支持 42 种语言，并具备动态语言切换能力。
端到端处理： 直接处理原始语音输入，避免了传统级联系统（ASR → LLM → TTS）的误差累积，在嘈杂环境或低质量麦克风条件下表现

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。