[ComfyUI]超逼真文本生成语音插件分享

前言

介绍

今天分享一个很有意思的插件,文本生成语音TangoFlux,测试发现效果出奇的好,生成速度也超快。

这项技术我看论文介绍,很热乎,12月30号提交的,到现在才过去半个月,有人整合到ComfyUI里面来了。

官方是这样介绍的:

我们推出了 TangoFlux,这是一种高效的文本到音频 (TTA) 生成模型,具有 515M 参数,能够在单个 A40 GPU 上仅用 3.7 秒生成长达 30 秒的 44.1kHz 音频。调整 TTA 模型的一个关键挑战在于创建偏好对的困难,因为 TTA 缺乏结构化机制,例如可验证的奖励或可用于大型语言模型 ( LLMs ) 的黄金标准答案。

为了解决这个问题,我们提出了 CLAP 排名偏好优化 (CRPO),这是一种新颖的框架,可以迭代生成和优化偏好数据以增强 TTA 对齐。我们证明使用 CRPO 生成的音频偏好数据集优于现有替代方案。借助该框架,TangoFlux 在客观和主观基准测试中均实现了最先进的性能。我们开源所有代码和模型,以支持 TTA 生成的进一步研究。

支持TeaCache,实测 10秒音频只需要3秒,最多支持30秒音频,支持音效和音频制作,质量非常不错。

所有的AI设计工具,安装包、模型和插件,都已经整理好了,👇获取~

请添加图片描述

02

**相关安装
**

官网地址:

https://github.com/declare-lab/TangoFlux/

ComfyUI插件地址:

https://github.com/LucipherDev/ComfyUI-TangoFlux

节点管理器搜 TangoFlux 即可

模型安装:

https://huggingface.co/declare-lab/TangoFlux/tree/main

https://huggingface.co/google/flan-t5-large/tree/main

模型需要2个,我也整合好了,直接网盘获取

下面这2个包丢到models目录下面即可,一共6.7G

这里说一下运行的时候有个报错,我折腾了1小时多才搞定,最后还是在官网上发现的解决方案,如果你也遇到下面这个报错。

那就编辑插件下的这个文件

\custom_nodes\ComfyUI-TangoFlux\tangoflux\model.py

将第 605–608 行更改为以下内容:

txt_ids = torch.zeros(bsz, encoder_hidden_states.shape[1], 3).to(device)``audio_ids = (torch.arange(self.audio_seq_len).unsqueeze(0).unsqueeze(-1).repeat(bsz, 1, 3).to(device))

将第 93 行更改为以下内容:

ids = torch.cat((txt_ids, img_ids), dim=1)

03

**使用体验
**

官网地址:作流很简单,就3个节点就行

提示词这边填写你想要的音效,然后执行即可

参数按默认即可,duration对应多少秒,默认10秒,最多支持30秒。

下面是我跑的几个案例,真的很棒

让我们来看看一些人案例效果:



雨天,静悄悄的,只有滴答滴答的雨声

Rainy day, quiet, only the ticking sound of rain





一只狗在海边狂叫,海浪拍打着岸边

A dog barks at the beach and the waves crash on the shore





春节,烟花爆竹,热闹非凡

Chinese New Year, fireworks and firecrackers, very lively





跑车轰鸣声,在街道上飞驰

The sports car roars and speeds through the streets





宝宝开心的笑声

Baby's happy laughter



更多效果等大家自己挖掘,NSFW~

04

总结

以上就是这个文生语音插件TangoFlux的介绍了,很好用的一个插件,效果惊人。

技术的迭代是飞快的,要关注最新的消息才不会掉队。

关注我,每天分享最新的ComfyUI技术前沿。

今天介绍的工作流和模型我都打包好了。

为了帮助大家更好地掌握 ComfyUI,我在去年花了几个月的时间,撰写并录制了一套ComfyUI的基础教程,共六篇。这套教程详细介绍了选择ComfyUI的理由、其优缺点、下载安装方法、模型与插件的安装、工作流节点和底层逻辑详解、遮罩修改重绘/Inpenting模块以及SDXL工作流手把手搭建。

由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取

请添加图片描述

一、ComfyUI配置指南
  • 报错指南
  • 环境配置
  • 脚本更新
  • 后记

img

二、ComfyUI基础入门
  • 软件安装篇
  • 插件安装篇

img

三、 ComfyUI工作流节点/底层逻辑详解
  • ComfyUI 基础概念理解
  • Stable diffusion 工作原理
  • 工作流底层逻辑
  • 必备插件补全

img

四、ComfyUI节点技巧进阶/多模型串联
  • 节点进阶详解
  • 提词技巧精通
  • 多模型节点串联

img

五、ComfyUI遮罩修改重绘/Inpenting模块详解
  • 图像分辨率
  • 姿势

img

六、ComfyUI超实用SDXL工作流手把手搭建
  • Refined模型
  • SDXL风格化提示词
  • SDXL工作流搭建

img

由于篇幅原因,本文精选几个章节,详细版点击下方卡片免费领取

请添加图片描述

img

### ComfyUI 文本插件的功能 ComfyUI 的文本插件主要用于增强平台处理和操作文本数据的能力。这类插件能够提供诸如多语言支持、自动翻译服务、文本编辑工具等功能,从而使得用户可以在多种应用场景下更加便捷地处理文本信息[^1]。 ### 插件安装指南 对于希望安装文本插件的用户来说,首先应当确认目标插件的具体名称及其官方发布渠道。一般而言,大多数高质量的插件都会托管于 GitHub 或其他知名的代码分享平台上。以一个假设存在的名为 `TextEnhancer` 的文本插件为例: #### 下载并解压文件 前往该插件的GitHub页面下载最新版本压缩包,并将其解压到本地计算机上指定位置。 #### 将插件放置至正确目录 将解压后的文件夹复制粘贴进入 ComfyUI 主程序所在路径下的特定子文件夹内(通常是 plugins 文件夹)。确保遵循 ComfyUI Manager 提供的操作指引完成这一步骤[^2]。 ```bash cp -r /path/to/downloaded/plugin ~/comfyui/plugins/ ``` ### 使用教程概览 一旦成功安装了所需的文本插件,在启动 ComfyUI 平台之后便可通过图形界面轻松调用新获得的各项特性。具体使用方法取决于各个独立开发者的文档说明,但普遍会涉及到以下几个方面: - **初始化配置**:首次运行时可能需要设置一些基本参数; - **功能探索**:浏览新增加菜单项或按钮来熟悉所提供的特色选项; - **实际应用**:尝试利用这些新能力解决日常工作中遇到的实际问题。 通过上述过程,用户不仅能够显著提升工作效率,还能享受到由社区贡献者带来的创新体验[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值