语音论文阅读(用于SOTA语音识别的多流CNN和自专注SRU)

提出一种混合ASR系统,结合多流CNN声学模型与自注意力SRU语言模型,前者通过不同时间分辨率增强鲁棒性,后者改进上下文建模能力。在Librispeech数据集上取得SOTA结果。

论文:

          ASAPP-ASR: Multistream CNN and Self-Attentive SRU  for SOTA Speech Recognition

摘要:

        两种新颖的神经网络架构Multistream CNN(声学模型),slef-Attentive SRU(语言模型),在混合ASR框架中,多流CNN声学模型在多个并行管线中处理语音帧的输入,其中每个流具有唯一的扩容速率以实现分集,使用一些数据增强的方法训练,在Librispeech数据集test-clean,test-other分别有4%以及14%的个提升,加入语言模型后,得到进一步提升

在test-clean中WER为1.75%,在test-other中wer为4.46%是一个新的SOTA。

引言

讲了端到端语音识别系统的发展,LAS,CNN-RNN-Transducer等模型实现的结果,受[20]启发但没有多头自我注意层的多流CNN声学模型,在多个并行管线中处理输入语音帧,其中每个流对于CNN的卷积核具有唯一的扩张率,以实现多样性。经过SpecAugment的培训,它在测试清洁方面的相对WER改善了4%,在其他测试方面达到了14%。我们使用24层自关注SRU语言模型通过N最佳记录来进一步提高性能。在[30]中提出了SRU,用于递归计算中的更高并行化。我们的变体在原始SRU上增加了自注意力,不仅可以替代计算中的某些线性运算,而且还可以增强上下文建模功能。一旦使用由Kaldi工具包训练的TDNN-LSTM语言模型进行重新评分,我们便重新计算了网格的N个最佳输出[31,32]。在两个测试集上,自我专注的SRU LM的平均相对WER改善约为23%

模型架构

这种新颖的神经网络架构可在多个流中适应不同的时间分辨率,以实现鲁棒性。对于不同的时间分辨率,它考虑了TDNN-F(一维CNN的变体)上特定于流的膨胀率。每个流堆叠较窄的TDNN-F层,当并行处理输入语音帧时,它们的内核具有唯一的扩展速率。从默认子采样率(3帧)的倍数中选择每个流中TDNN-F层的扩散率。这提供了与训练和解码过程的无缝集成,其中对输入语音帧进行了二次采样。借助SpecAugment,多流CNN可以提供更高的鲁棒性,以应对具有挑战性的音频,例如LibriSpeech中的“其他”设备。

声学模型:

以单流方式放置5层2D CNN,我们将3x3内核用于2D CNN,滤波器大小为256,第一层为128,每个流使用17个TDNN-F,该嵌入矢量通过网络末端的几个完全连接的层投影在输出层上。我们采用3-6个扩张配置为6-9-12的流,其中3个流的TDNN-F层的扩展速率分别为6、9和12。

语言模型

语言模型使用[30]提出的SRU 架构,一个单层SRU计算如下:

 相比LSTM以及GRU,SRU可以达到更快的训练速度,SRU的变种在[33][34][35]都取得了很好的效果

实验

数据集:Librispeech

self-attentive SRU LMs:学习率2x10-4,优化器RAdam ,schedule,使用余弦退火学习速率,隐藏层:2048,自注意力层512

 

 在这项工作中,我们提出了一种混合ASR系统,该系统结合了新颖的声学模型架构,多流CNN和有效的语言模型,自专心的SRU。通过对LM评分的多个阶段以及对N个最佳假设进行重新排名的预期单词错误最小化,我们在流行的语音基准测试中获得了关于测试清洁度和竞争性测试性能的最新结果图书馆。通过多流CNN在多流体系结构中进行多分辨率处理,证明了它对test other的鲁棒性,而SRU的自我关注型则证明了其建模能力优于Transformer。我们将继续通过有效使用深层CNN架构以及在培训中进一步优化数据增强方法来提高声学模型的鲁棒性。凭借自我专注的SRU在语言建模中提出的令人鼓舞的结果,我们还计划在端到端ASR的框架中在声学建模中利用SRU的类似建模能力

参考文献

[20] K. J. Han, R. Prieto, and T. Ma, “State-of-the-art speech recognition using multi-stream self-attention with dilated 1D convolution,” in ASRU, 2019, pp. 54–61

[29] K. J. Han, J. Pan, V . K. N. Tadala, T. Ma, and D. Povey, “Multistream CNN for robust acoustic modeling,” in Interspeech, 2020,in review

[30] T. Lei, Y . Zhang, S. I. Wang, H. Dai, and Y . Artzi, “Simple recur-rent units for highly parallelizable recurrence,” in EMNLP, 2018.

[33] J. Park, Y . Boo, I. Choi, S. Shin, and W. Sung, “Fully neural net-work based speech recognition on mobile and embedded devices,”in NeurIPS, 2018, pp. 10 620–10 630.

[34]Y . Shangguan, J. Li, Q. Liang, R. Alvarez, and I. McGraw, “Optimizing speech recognition for the edge,” 2019, [Online]. Avail-able: https://arxiv.org/abs/1909.12408

[35]T. Koriyama and H. Saruwatari, “Utterance-level sequential mod-eling for deep Gaussian process based speech synthesis using sim-ple recurrent unit,” ICASSP, 2020.

语音识别技术中,选择一个兼顾准确率与实时性的语音转文本(Speech-to-Text, STT)模型是关键。以下是一些推荐的模型工具,它们在准确性延迟方面表现优异,适用于不同的应用场景。 ### 1. **RealtimeSTT** RealtimeSTT 是一款开源的实时语音转文本工具,特别适合需要低延迟高准确率的应用场景。该工具的设计目标是让开发者能够轻松集成到实时语音处理应用中,例如语音助手、在线会议记录、字幕生成等[^1]。它支持种语言,并且可以快速响应语音输入,实现近乎实时的文字转换。 ### 2. **SenseVoice** SenseVoice 是一个语言音频理解模型,具备强大的语音识别能力,同时支持语种识别、语音情感识别、声学事件检测以及逆文本正则化等功能。该模型基于工业级数十万小时的标注音频进行训练,确保了其在种语言环境下的通用性[^2]。SenseVoice 的优势在于其对中文、粤语、英语、日语、韩语等种语言的支持,并能输出带有情感事件信息的富文本转写结果,非常适合需要模态分析的应用。 ### 3. **FunASR** FunASR 是阿里巴巴推出的语音识别框架,包含个高质量的语音识别模型。其中,**Paraformer** **SenseVoice-Small** 是两个在准确率实时性上表现突出的模型。Paraformer 基于非自回归架构,能够在保持较高识别准确率的同时显著降低推理延迟,适合实时语音转文字任务。此外,FunASR 提供了丰富的预训练模型微调接口,便于开发者根据具体需求进行定制化优化。 ### 4. **Whisper** OpenAI 推出的 Whisper 是一种语言语音识别模型,支持超过 90 种语言的语音转文字任务。Whisper 在噪声环境下仍能保持较高的识别准确率,并且可以通过调整模型大小(如 tiny、base、small、medium、large)来平衡计算资源消耗与识别质量。尽管 Whisper 的推理速度相对较慢,但通过使用 GPU 加速或量化技术,可以实现接近实时的性能[^3]。 ### 5. **DeepSpeech** Mozilla 的 DeepSpeech 是一个轻量级的端到端语音识别引擎,基于 TensorFlow 实现。它具有较低的内存占用较快的推理速度,适合嵌入式设备或对资源敏感的场景。虽然 DeepSpeech 的准确率略逊于更复杂的模型,但在某些特定领域(如命令词识别)中仍然表现出色。 ### 6. **Wav2Vec 2.0** Facebook AI 提出的 Wav2Vec 2.0 是一种基于自监督学习的语音识别模型,能够在无标签数据上进行预训练,并在少量标注数据上进行微调以达到接近人类水平的识别准确率。Wav2Vec 2.0 的主要缺点是推理延迟较高,但通过模型压缩硬件加速技术,可以在一定程度上提升其实时性。 ### 7. **Conformer** Conformer 是 Google 提出的一种结合卷积神经网络(CNN Transformer 的混合架构,在语音识别任务中取得了优异的成绩。Conformer 模型不仅在 LibriSpeech 等标准数据集上达到了 SOTA(State of the Art)级别的准确率,而且在部署时可以通过模型剪枝、量化等方式优化推理速度,满足实时性要求。 ### 示例代码:使用 RealtimeSTT 进行实时语音转文字 ```python from RealtimeSTT import AudioToTextRecorder # 初始化录音器 recorder = AudioToTextRecorder() # 开始录音并实时转写 print("开始说话...") while True: text = recorder.text() if text: print(f"识别结果: {text}") ``` ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值