开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@鲍勃
01 有话题的技术
1、Ultravox v0.5 发布:端到端语音模型,语音理解超越 GPT-4o 和 Gemini 1.5 Flash
Ultravox v0.5 开源语音语言模型在去年发布 v0.4.1 的基础上,v0.5 大幅提升了语音理解能力、多语言支持以及在真实场景中的适应能力。该版本在语音理解基准测试中超越了 OpenAI 的 GPT-4o Realtime 和 Google 的 Gemini 1.5 Flash,同时保留了开源模型的灵活性和透明性。模型权重现已发布,可通过 Hugging Face 获取。
技术亮点:
-
CoVoST-2 & Big Bench Audio 领先: 在多语言语音翻译和基于语音的推理任务中表现卓越。
-
转录性能大幅提升: 在 LibriSpeech、CommonVoice 和 Fleurs 的 82 个评估集上,单词错误率 (WER) 降低 60%。
-
语音问答能力增强: 在命名实体识别等任务中,性能提升 18%。
-
广泛的多语言支持: 支持 42 种语言,并具备动态语言切换能力。
-
端到端处理: 直接处理原始语音输入,避免了传统级联系统 (ASR → LLM → TTS) 的误差累积,在嘈杂环境或低质量麦克风条件下表现