阶跃星辰端到端语音模型 Step-Audio 2：深度思考+音色切换；11Labs 对话式 AI 增加 WebRTC支持丨日报

原创

已于 2025-07-28 19:26:49 修改 · 1.2k 阅读

·

22

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #webrtc

于 2025-07-28 19:26:45 首次发布

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01有话题的技术

1、阶跃星辰端到端语音模型 Step-Audio 2，支持对情绪、副语言、音乐等非文字信号精细理解
在这里插入图片描述

Step-Audio 2 是业内首个将语音理解、音频推理与生成统一建模的架构，打通了「听得懂、想得明白、说得自然」的完整交互链路。模型基于千万小时真实语音数据训练，具备实时对话、语音翻译、工具调用等关键能力。在端到端语音模型中首创任意音色切换和深度思考能力，能对情感场景等副语言信息、声音音乐等非语言信息进行精细理解与推理，达到 SOTA 级语音理解与表达水平。

与此同时，我们还发布了 StepEval-Audio-Paralinguistic 和 StepEval-Audio-ToolCall 两项行业新评测基准。分别衡量语音模型在副语言信息理解与工具调用两大能力维度的表现，填补了领域空白，进一步完善语音模型的评估体系。

Step-Audio 2 主要通过三个技术实现：

真端到端多模态架构：Step-Audio 2 的架构「真」端到端，直接处理原始音频，保证对副语言信息和非人声信息的有效理解。一改传统的 ASR + LLM + TTS 三级结构，实现原始音频输入→语音响应输出的直接转换；这样架构更简单，能够有效减少时延。此外，技术上采用了连续输入+离散输出范式，能直接处理原始音频波形，避免特征提取造成的信息损失，还能通过离散音频 token 保证声音合成稳定性。最后，在语言建模层，Step-Audio 2 实现了文本与语音 token 的固定比例交错排列，确保文本-语音模态高度对齐，显著提升模型的智商上限。
CoT 推理结合强化学习：团队首创了端到端语音模型中的深度推理能力，能对情绪、副语言、音乐等非文字信号进行精细理解、推理，实现高情商回复。
多模态知识检索增强：模型支持调用 web 搜索，有助于模型解决幻觉问题，同时支持音频检索，让模型可以通过任意自然语言描述来无缝切换音色风格，实现百变音色。

相关链接：https://github.com/stepfun-ai/Step-Audio2 （@阶跃星辰开放平台）

2、ElevenLabs 对话式 AI 现已添加 WebRTC 支持

ElevenLabs 对话式 AI 中现已添加 WebRTC 支持，旨在为 AI 智能体提供同类最佳的回声消除和背景噪音消除功能。

WebRTC 能够带来：

通过先进的回声消除和噪

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。