一、微软ASR核心能力 1. 支持场景 场景 功能 实时语音转文本 低延迟流式识别(会议字幕/直播转录) 音频文件转文本 支持多种格式(WAV/MP3等),批量处理长音频 定制化模型 针对特定行业术语(医疗/金融)训练专属模型 多语言混合识别 中英文混合、方言识别(如中文普通话+粤语) 说话人分离 区分不同发言人(声纹识别) 2. 关键性能指标 识别准确率: 中文普通话 >95%(安静环境) 英文 >96%(Microsoft Research基准测试) 延迟: 流式识别 <300ms 并发支持: Azure云端支持千级并发实时流 二、技术架构与接入方式 1. 核心组件 音频输入