一,六种模型 输入一段声音------>输出文本、声音、判断类别 输入语言判断类别: 二、speech recognition声音识别 三个主要语音辨识会议中,使用最多的token: 语音辨识+xxxx: