端到端语音识别架构与CHiME挑战
1. 端到端语音识别架构概述
端到端语音识别架构正逐渐应用于更大型的任务中,在这些任务里,语音识别只是其中一个子任务。这些大型任务包括对话系统、对话状态跟踪、解析与槽填充、语音摘要、讲座字幕生成、语音翻译等。目前,这些任务通常被处理为一系列独立模块的级联,因此,它们与语音识别器进行联合优化将能获得巨大的益处。针对不同任务,已经提出了不同形式的损失函数。
当前大多数端到端自动语音识别(ASR)工作都采用了某种形式的循环神经网络,但对于严格的线性语音转文本任务,是否需要循环和长期记忆能力尚不清楚。一些研究表明可能并非如此。鉴于目前这些任务的进展速度,很可能在不久之后,许多相关想法就会得以实现。
1.1 相关研究成果
以下是一些在端到端语音识别领域的重要研究成果:
| 研究内容 | 研究者 | 年份 |
| ---- | ---- | ---- |
| OpenFST:通用且高效的加权有限状态转换器库 | Allauzen, C., Riley, M., Schalkwyk, J., Skut, W., Mohri, M. | 2007 |
| 用于语音识别的上下文相关声学模型的异步、在线、无GMM训练 | Bacchiani, M., Senior, A., Heigold, G. | 2014 |
| 通过联合学习对齐和翻译实现神经机器翻译 | Bahdanau, D., Cho, K., Bengio, Y. | 2014 |
1.2 端到端语音识别流程
graph
超级会员免费看
订阅专栏 解锁全文
940

被折叠的 条评论
为什么被折叠?



