实现差异
| 特性 | 非流式识别实现 | 流式识别实现 |
|---|---|---|
| 模型架构 | 全局上下文模型(如:Transformer,全序列 BERT) | 流式兼容模型(如:RNN-T,Chunk-Based Transformer,流式 CTC) |
| 注意力机制 | 全局注意力:可关注整个音频序列的任何部分 | Chunk 注意力/单调注意力:只能关注过去和有限未来的音频块 |
| 解码策略 | 离线解码:完全句子的束搜索(Beam Search),可前向后向优化 | 流式解码:实时束搜索或贪心解码,可能结合右边界检测 |
| 数据流处理 | 整段输入:处理完整的音频文件或语音段 | Chunk 流输入:将音频切成小块(如:每 100ms)进行增量处理 |
| 输出方式 | 一次性输出:最终最优结果 |

最低0.47元/天 解锁文章
1294

被折叠的 条评论
为什么被折叠?



