JoyTTS: LLM-based Spoken Chatbot With Voice Cloning

文章主要内容总结

JoyTTS是一款端到端的语音聊天机器人,结合了大型语言模型(LLM)与文本转语音(TTS)技术,具备语音克隆能力。其核心信息如下:

  1. 模型基础:基于开源的MiniCPM-o(LLM)和CosyVoice2(TTS)构建,替换了MiniCPM-o原有的GPT-Sovits-based TTS模块以增强语音克隆性能,训练数据涵盖2000小时对话数据(400K多轮文本对话样本,来自RedGPT和GeneratedChat0.4M数据集)。
  2. 模块组成:包含四个核心模块——Tokenizer模块(将文本和音频转换为令牌)、LLM-Chat模块(基于MiniCPM-o的Qwen-7B模型,处理输入并生成文本和隐藏层特征)、LLM-TTS模块(利用隐藏层特征生成语音令牌)、Generator模块(生成最终音频)。
  3. 数据构建:通过CosyVoice2将文本对话转换为音频,并采用数据增强技术(拆分文本为不同长度片段、添加特殊标点)提升模型适应性。
  4. 训练过程:分两阶段进行,先独立训练LLM-Chat(确保隐藏状态与文本标签对齐)和LLM-TTS(聚焦高质量音频生成),再联合训练优化整体性能。
  5. 实验结果:在seed-ttszh测试集上,语音相似度(SS)得分为0.73,词错误率(WER)为5.09,单NVIDIA 4090D上延迟仅1.8秒(无工程优化)。
  6. 开源情况:提供完整训练代码、模型及脚本
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值