- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 DatawhaleAI春训营笔记
它基于从网络收集的 68 万小时 多语言和多任务监督数据组成的庞大而多样化的数据集进行训练。Whisper 可以将英语和其他几种语言的语音转录成文字,还可以将几种非英语语言直接翻译成英语。Whisper 使用基于编码器-解码器转换器架构的端到端方法,将音频分割成 30 秒的片段,然后将其转换为对数梅尔频谱图,然后传入编码器,解码器根据该编码器预测相应的文本。此文本实际上与特殊标记混合在一起,这些标记指示模型执行语言识别、短语级时间戳、多语言语音转录和翻译成英语等任务。
2025-05-06 19:14:37
737
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅