音频克隆:对话文本到口语对话生成MOSS-TTSD


之前介绍过几个音频克隆的可以项目:

CosyVoice:https://www.cnblogs.com/cj8988/p/18975495
IndexTTS:https://www.cnblogs.com/cj8988/p/18973016
GPT-SoVITS:https://www.cnblogs.com/cj8988/p/18962212

IndexTTs-多人:https://www.cnblogs.com/cj8988/p/18973609


本章在介绍一个多人对话的(两人对话)开源项目(8GPU可以跑):MOSS-TTSD

亮点:

高度富有表现力的对话语音:MOSS-TTSD 基于统一的语义声学神经音频编解码器、预先训练的大型语言模型、数百万小时的 TTS 数据以及 40 万小时的合成和真实对话语音,可生成具有自然对话韵律的高度富有表现力、类似人类的对话语音。
双人语音克隆:MOSS-TTSD 支持零样本双人语音克隆,并可根据对话脚本生成具有准确说话人切换的对话语音。
中英双语支持:MOSS-TTSD 能够以中文和英文生成极具表现力的语音。
长篇语音生成:得益于低比特率编解码器和训练框架的优化,MOSS-TTSD 已经可以进行长篇语音生成的训练。
完全开源和商业就绪:MOSS-TTSD 及其未来更新将完全开源并支持免费商业使用。

下载安装:

开源地址:https://github.com/OpenMOSS/MOSS-TTSD

模型下载:https://huggingface.co/fnlp/XY_Tokenizer_TTSD_V0/tree/main
模型存放位置在现在的文件夹下:MOSS-TTSD\XY_Tokenizer\weights\

 

安装:
进入window的虚拟环境conda中:

创建环境:
conda create -n moss_ttsd python=3.10

激活环境:
conda activate moss_ttsd

安装:
pip install -r requirements.txt

加速:这个先使用下面的命名安装,如果成功那就皆大欢喜
#pip install flash-attn

如果flash-attn安装失败,就不用折腾了,我用了很多方法好像都没有成功,所以修改代码,不使用flash-attn。

修改generation_utils.py:找到load_model()函数
将参数默认值修改一下 attn_implementation="flash_attention_2"
修改为attn_implementation="sdpa"


运行:python gradio_demo.py

第一次运行时会下载模型:fnlp/MOSS-TTSD-v0.5,需要很长的时间。

 

下载完成后,浏览器访问:http://127.0.0.1:7860/

注意,我试过Single单音频支持不太好(我的音频只有一个人说话,估计两个人说话还是可以的),所以这里直接使用两个音频进行实验。

 

结果:
音频1音频2合成音频


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值