Sherpa-onnx v1.11.0 版本发布:全面支持语音增强与多语言ASR
Sherpa-onnx 是一个基于ONNX Runtime的高性能语音处理工具包,专注于提供跨平台的语音识别(ASR)、语音合成(TTS)、语音活动检测(VAD)等能力。最新发布的v1.11.0版本带来了多项重要更新,特别是在语音增强和RKNN支持方面有显著提升。
核心功能增强
1. 语音增强GTCRN模型支持
本次更新最引人注目的是新增了对GTCRN(Gated Temporal Convolutional Recurrent Network)语音增强模型的全栈支持。GTCRN是一种结合了时域卷积和循环神经网络优势的语音增强架构,能有效去除噪声和混响,提升语音质量。
项目提供了完整的跨平台支持:
- C++运行时核心
- Python API接口
- C语言绑定
- 跨平台框架(包括Swift、C#、Go、Pascal、Dart等)
- WebAssembly和JavaScript支持
- 移动端(Kotlin/Java)集成方案
2. RKNN平台优化
针对特定NPU的RKNN平台,v1.11.0版本做了专门优化:
- 支持Zipformer CTC模型在RKNN上的推理
- 实现了transducer modified_beam_search算法适配
- 提供预编译的Linux aarch64静态/动态库
多语言ASR改进
项目持续强化多语言支持能力:
- 新增日语Zipformer Reazonspeech模型
- 优化泰语Zipformer Gigaspeech2模型
- 增强中英混合Paraformer模型
- 支持粤语-英语混合识别
开发者体验提升
- 新增C++ VAD+非流式ASR演示程序
- 完善Go语言绑定(新增OfflineRecognizerSetConfig接口)
- 提供CMake子项目集成测试方案
- 优化Whisper模型的token生成速率控制
性能优化
- 采用Ebranchformer结构提升模型效率
- 优化内存管理和线程调度
- 减少WASM版本的体积
应用场景
新版本特别适合以下场景:
- 嘈杂环境下的语音识别预处理
- 嵌入式设备上的实时语音处理
- 多语言混合对话系统
- 低功耗设备的语音交互
v1.11.0版本标志着Sherpa-onnx在语音处理全栈能力上的又一次飞跃,特别是语音增强功能的加入使其成为更完整的语音解决方案。项目团队持续关注开发者需求,通过丰富的API支持和跨平台能力,让语音技术集成变得更加简单高效。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



