项目简介
SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型,可为近 100 种语言的语音和文本提供高质量翻译。
SeamlessM4T 模型支持以下任务:
-
语音到语音翻译 (S2ST)
-
语音到文本翻译 (S2TT)
-
文本到语音翻译 (T2ST)
-
文本到文本翻译 (T2TT)
-
自动语音识别 (ASR)
我们正在发布 SemalessM4T v2,这是采用我们新颖的 UnitY2 架构的更新版本。与 SeamlessM4T v1 相比,该新模型在质量以及语音生成任务中的推理延迟方面有所改进。
要了解有关 SeamlessM4T 模型集合、每个模型所使用的方法、其语言覆盖范围及其性能的更多信息,请访问 SeamlessM4T 自述文件或模型卡
SeamlessExpressive
SeamlessExpressive 是一种语音到语音翻译模型,可捕捉韵律中某些未充分探索的方面,例如语速和停顿,同时保留语音风格和高内容翻译质量。
要了解有关 SeamlessExpressive 模型的更多信息,请访问 SeamlessExpressive 自述文件或🤗 模型卡
SeamlessStreaming
SeamlessStreaming 是一种流式翻译模型。该模型支持语音作为输入模态和语音/文本作为输出模态。
SeamlessStreaming 模型支持以下任务:
-
语音到语音翻译 (S2ST)
-
语音到文本翻译 (S2TT)
-
自动语音识别 (ASR)

本文介绍了SeamlessM4T的升级版SemalessM4Tv2,一种强大的多语言机器翻译模型,支持多种任务如S2ST、S2TT等。SeamlessExpressive关注语音细节和风格,SeamlessStreaming则专为流式翻译设计。安装指南和更多模型信息可在相关文档和GitHub仓库中找到。
最低0.47元/天 解锁文章
2050

被折叠的 条评论
为什么被折叠?



