文章目录 核心区别 详细解释 1. 非流式识别 2. 流式识别 技术挑战的差异 总结 核心区别 特性 流式识别 非流式识别 处理方式 边录音边识别,持续输入和输出 先录音,再识别,一次性输入和输出 延迟 低延迟,实时返回中间结果 高延迟,等待整个音频结束后才返回最终结果 结果形式 持续流动的文本流,包含多次修正 一次性最终的准确文本 关键技术 流式模型(如 RNN-T, CTC),VAD 全局模型(如 Transformer),全局优化 资源占用 相对较低且持续 结束时可能瞬间占用较高 应用场景 实时交互:语音输入法、实时字幕、智能助手 非实时处理:录音转文字、会议纪要整理、音视频字幕生成 详细解释