[ComfyUI]超逼真文本生成语音插件分享

AI绘画咪酱

于 2025-03-31 10:52:22 发布

阅读量594

点赞数 23

文章标签： AI作画 stable diffusion 人工智能 SD SD教程 AI AIGC

本文链接：https://blog.youkuaiyun.com/2401_84760322/article/details/146804165

版权

前言

介绍

今天分享一个很有意思的插件，文本生成语音TangoFlux，测试发现效果出奇的好，生成速度也超快。

这项技术我看论文介绍，很热乎，12月30号提交的，到现在才过去半个月，有人整合到ComfyUI里面来了。

官方是这样介绍的：

我们推出了 TangoFlux，这是一种高效的文本到音频 (TTA) 生成模型，具有 515M 参数，能够在单个 A40 GPU 上仅用 3.7 秒生成长达 30 秒的 44.1kHz 音频。调整 TTA 模型的一个关键挑战在于创建偏好对的困难，因为 TTA 缺乏结构化机制，例如可验证的奖励或可用于大型语言模型 ( LLMs ) 的黄金标准答案。

为了解决这个问题，我们提出了 CLAP 排名偏好优化 (CRPO)，这是一种新颖的框架，可以迭代生成和优化偏好数据以增强 TTA 对齐。我们证明使用 CRPO 生成的音频偏好数据集优于现有替代方案。借助该框架，TangoFlux 在客观和主观基准测试中均实现了最先进的性能。我们开源所有代码和模型，以支持 TTA 生成的进一步研究。

支持TeaCache，实测 10秒音频只需要3秒，最多支持30秒音频，支持音效和音频制作，质量非常不错。

所有的AI设计工具，安装包、模型和插件，都已经整理好了，👇获取~

请添加图片描述

**相关安装
**

官网地址：

https://github.com/declare-lab/TangoFlux/

ComfyUI插件地址：

https://github.com/LucipherDev/ComfyUI-TangoFlux

节点管理器搜 TangoFlux 即可

模型安装：

https://huggingface.co/declare-lab/TangoFlux/tree/main

https://huggingface.co/google/flan-t5-large/tree/main

模型需要2个，我也整合好了，直接网盘获取

下面这2个包丢到models目录下面即可，一共6.7G

这里说一下运行的时候有个报错，我折腾了1小时多才搞定，最后还是在官网上发现的解决方案，如果你也遇到下面这个报错。

那就编辑插件下的这个文件

\custom_nodes\ComfyUI-TangoFlux\tangoflux\model.py

将第 605–608 行更改为以下内容：

txt_ids = torch.zeros(bsz, encoder_hidden_states.shape[1], 3).to(device)``audio_ids = (torch.arange(self.audio_seq_len).unsqueeze(0).unsqueeze(-1).repeat(bsz, 1, 3).to(device))

将第 93 行更改为以下内容：

ids = torch.cat((txt_ids, img_ids), dim=1)

**使用体验
**

官网地址：作流很简单，就3个节点就行

提示词这边填写你想要的音效，然后执行即可

参数按默认即可，duration对应多少秒，默认10秒，最多支持30秒。

下面是我跑的几个案例，真的很棒

让我们来看看一些人案例效果：



雨天，静悄悄的，只有滴答滴答的雨声

Rainy day, quiet, only the ticking sound of rain



一只狗在海边狂叫，海浪拍打着岸边

A dog barks at the beach and the waves crash on the shore



春节，烟花爆竹，热闹非凡

Chinese New Year, fireworks and firecrackers, very lively



跑车轰鸣声，在街道上飞驰

The sports car roars and speeds through the streets



宝宝开心的笑声

Baby's happy laughter

更多效果等大家自己挖掘，NSFW~

总结

以上就是这个文生语音插件TangoFlux的介绍了，很好用的一个插件，效果惊人。

技术的迭代是飞快的，要关注最新的消息才不会掉队。

关注我，每天分享最新的ComfyUI技术前沿。

今天介绍的工作流和模型我都打包好了。

为了帮助大家更好地掌握 ComfyUI，我在去年花了几个月的时间，撰写并录制了一套ComfyUI的基础教程，共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。