随着语音技术的普及,语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题,常常使语音质量和可懂度大打折扣。
无论是录制清晰语音却因周围环境嘈杂充满噪声,还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音,这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中,如何有效分离目标说话人的语音信号,避免其他干扰,一直是语音处理领域的难点和热点。
通义实验室开源 ClearerVoice-Studio,一个集成语音增强、语音分离和音视频说话人提取等功能的语音处理框架。通过融合复数域深度学习算法,我们大幅提升了语音降噪和分离的性能,能够最大限度地消除背景噪声并保留语音清晰度,同时保持语音失真最小化。
💡 ClearerVoice-Studio 能为您做什么?
-
高效去除背景噪声,将嘈杂语音处理成高质量、清晰的语音信号;
-
从复杂音频混合中轻松分离目标语音,满足多种语音处理需求;
-
使用音视频结合的模型精确提取目标说话人的语音信号;
-
使用模型训练和调优工具进行模型效果打磨;
📂 代码仓库
-
GitHub 仓库:ClearerVoice-Studio https://github.com/modelscope/ClearerVoice-Studio
-
在线 Demo:Hugging Face Space https://huggingface.co/spaces/alibabasglab/ClearVoice
▎核心模型与算法亮点
-
FRCRN 模型:

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



