文章主要内容总结
JoyTTS是一款端到端的语音聊天机器人,结合了大型语言模型(LLM)与文本转语音(TTS)技术,具备语音克隆能力。其核心信息如下:
- 模型基础:基于开源的MiniCPM-o(LLM)和CosyVoice2(TTS)构建,替换了MiniCPM-o原有的GPT-Sovits-based TTS模块以增强语音克隆性能,训练数据涵盖2000小时对话数据(400K多轮文本对话样本,来自RedGPT和GeneratedChat0.4M数据集)。
- 模块组成:包含四个核心模块——Tokenizer模块(将文本和音频转换为令牌)、LLM-Chat模块(基于MiniCPM-o的Qwen-7B模型,处理输入并生成文本和隐藏层特征)、LLM-TTS模块(利用隐藏层特征生成语音令牌)、Generator模块(生成最终音频)。
- 数据构建:通过CosyVoice2将文本对话转换为音频,并采用数据增强技术(拆分文本为不同长度片段、添加特殊标点)提升模型适应性。
- 训练过程:分两阶段进行,先独立训练LLM-Chat(确保隐藏状态与文本标签对齐)和LLM-TTS(聚焦高质量音频生成),再联合训练优化整体性能。
- 实验结果:在seed-ttszh测试集上,语音相似度(SS)得分为0.73,词错误率(WER)为5.09,单NVIDIA 4090D上延迟仅1.8秒(无工程优化)。
- 开源情况:提供完整训练代码、模型及脚本