Meta 新推出的实时语音翻译模型 Seamless

最新推荐文章于 2025-10-26 10:10:58 发布

原创

最新推荐文章于 2025-10-26 10:10:58 发布 · 1.2k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #音视频 #开源

本文介绍了SeamlessM4T的升级版SemalessM4Tv2，一种强大的多语言机器翻译模型，支持多种任务如S2ST、S2TT等。SeamlessExpressive关注语音细节和风格，SeamlessStreaming则专为流式翻译设计。安装指南和更多模型信息可在相关文档和GitHub仓库中找到。

项目简介

SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型，可为近 100 种语言的语音和文本提供高质量翻译。

SeamlessM4T 模型支持以下任务：

语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
文本到语音翻译 (T2ST)
文本到文本翻译 (T2TT)
自动语音识别 (ASR)

我们正在发布 SemalessM4T v2，这是采用我们新颖的 UnitY2 架构的更新版本。与 SeamlessM4T v1 相比，该新模型在质量以及语音生成任务中的推理延迟方面有所改进。

要了解有关 SeamlessM4T 模型集合、每个模型所使用的方法、其语言覆盖范围及其性能的更多信息，请访问 SeamlessM4T 自述文件或模型卡

SeamlessExpressive

SeamlessExpressive 是一种语音到语音翻译模型，可捕捉韵律中某些未充分探索的方面，例如语速和停顿，同时保留语音风格和高内容翻译质量。

要了解有关 SeamlessExpressive 模型的更多信息，请访问 SeamlessExpressive 自述文件或🤗 模型卡

SeamlessStreaming

SeamlessStreaming 是一种流式翻译模型。该模型支持语音作为输入模态和语音/文本作为输出模态。

SeamlessStreaming 模型支持以下任务：

语音到语音翻译 (S2ST)
语音到文本翻译 (S2TT)
自动语音识别 (ASR)

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。