
Automatic Speech Recognition
张博208
知识搬运工
展开
-
语音识别中的End2End模型: CTC, RNN-T与LAS
自动语音识别(Automatic Speech Recognition,简称ASR)是一项将机器学习与实际需要紧密结合的领域,应用场景如语音助手,聊天机器人,客服等等。今天就来比较一下比较流行的几种End-to-End的ASR模型。经典语音识别系统在了解End-to-End模型之前,我们先来看看经典的语音识别系统是怎样工作的以及为什么需要End-to-End模型。经典语音识别系统通常有如下几个组成部分:特征提取,如利用输入的waveform提取MFCC特征,然后再经过三个独立的模型再求得它们概率转载 2020-08-31 12:05:22 · 2201 阅读 · 0 评论 -
强大的端到端语音识别框架—RNN-T
前言:基于联结时序分类(CTC)的声学模型不再需要对训练的音频序列和文本序列进行强制对齐,实际上已经初步具备了端到端的声学模型建模能力。但是CTC模型进行声学建模存在着两个严重的瓶颈,一是缺乏语言模型建模能力,不能整合语言模型进行联合优化,二是不能建模模型输出之间的依赖关系。RNN-Transducer针对CTC的不足,进行了改进,使得模型具有了端到端联合优化、具有语言建模能力、便于实现Online语音识别等突出的优点, 更加适合语音任务。RNN-T介绍:RNN-Transducer模型实际上是转载 2020-08-31 11:46:08 · 4683 阅读 · 0 评论 -
白话CTC(connectionist temporal classification)算法讲解
https://blog.youkuaiyun.com/luodongri/article/details/77005948转载 2020-08-31 11:41:31 · 294 阅读 · 0 评论 -
WAV2LETTER ++:最快的开源语音识别系统
WAV2LETTER++:最快的开源语音识别系统Vineel Pratap, Awni Hannun, Qiantong Xu, Jeff Cai, Jacob Kahn, Gabriel Synnaeve,Vitaliy Liptchinsky, Ronan CollobertFacebook AI研究原文请参见:https://arxiv.org/abs/1812.07625,感谢原作者,因译者才疏学浅,偶有纰漏,望不吝指出。本内容由灵声讯音频-语音算法实验室整理翻译,转载和使用..转载 2020-08-31 10:47:14 · 704 阅读 · 0 评论 -
语音识别(ASR)评估指标-WER(字错误率)和SER(句错误率)
https://blog.youkuaiyun.com/sty945/article/details/80438587转载 2020-08-31 09:27:55 · 1699 阅读 · 0 评论