一、介绍
TangoFlux是通过流匹配和 Clap-Ranked 首选项优化,实现超快速、忠实的文本到音频生成的模型。

- 本模型由 Stability AI 提供支持
- 🚀 TangoFlux 可以在单个 A40 GPU 上在 ~3 秒内生成长达 34.1kHz 的立体声音频。
二、部署
安装方式非常简单
1.克隆并安装环境
pip install git+https://github.com/declare-lab/TangoFlux
2.推理
TangoFlux 可以生成长达 30 秒的音频。使用 Python API 时,必须将 duration 传递给函数。请注意,持续时间应在 1 到 30 之间。model.generate
Web 界面
运行以下命令以启动 Web 界面。
tangoflux-demo
首次运行web界面的启动命令后,项目会自动下载所需的模型,此时需要保持网络畅通,耐心等待:


最低0.47元/天 解锁文章
736

被折叠的 条评论
为什么被折叠?



