
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01有话题的技术
1、阶跃星辰端到端语音模型 Step-Audio 2,支持对情绪、副语言、音乐等非文字信号精细理解

Step-Audio 2 是业内首个将语音理解、音频推理与生成统一建模的架构,打通了「听得懂、想得明白、说得自然」的完整交互链路。模型基于千万小时真实语音数据训练,具备实时对话、语音翻译、工具调用等关键能力。在端到端语音模型中首创任意音色切换和深度思考能力,能对情感场景等副语言信息、声音音乐等非语言信息进行精细理解与推理,达到 SOTA 级语音理解与表达水平。
与此同时,我们还发布了 StepEval-Audio-Paralinguistic 和 StepEval-Audio-ToolCall 两项行业新评测基准。分别衡量语音模型在副语言信息理解与工具调用两大能力维度的表现, 填补了领域空白,进一步完善语音模型的评估体系。
Step-Audio 2 主要通过三个技术实现:
-
真端到端多模态架构:Step-Audio 2 的架构「真」端到端,直接处理原始音频,保证对副语言信息和非人声信息的有效理解。一改传统的 ASR + LLM + TTS 三级结构,实现原始音频输入→语音响应输出的直接转换;这样架构更简单,能够有效减少时延。此外,技术上采用了连续输入+离散输出范式,能直接处理原始音频波形,避免特征提取造成的信息损失,还能通过离散音频 token 保证声音合成稳定性。最后,在语言建模层,Step-Audio 2 实现了文本与语音 token 的 固定比例交错排列,确保文本-语音模态高度对齐,显著提升模型的智商上限。
-
CoT 推理结合强化学习:团队首创了端到端语音模型中的深度推理能力,能对情绪、副语言、音乐等非文字信号进行精细理解、推理,实现高情商回复。
-
多模态知识检索增强:模型支持调用 web 搜索,有助于模型解决幻觉问题,同时支持音频检索,让模型可以通过任意自然语言描述来无缝切换音色风格,实现百变音色。
相关链接:https://github.com/stepfun-ai/Step-Audio2 (@阶跃星辰开放平台)
2、ElevenLabs 对话式 AI 现已添加 WebRTC 支持
ElevenLabs 对话式 AI 中现已添加 WebRTC 支持,旨在为 AI 智能体提供同类最佳的回声消除和背景噪音消除功能。
WebRTC 能够带来:
-
通过先进的回声消除和噪

最低0.47元/天 解锁文章
820

被折叠的 条评论
为什么被折叠?



