JoyTTS: LLM-based Spoken Chatbot With Voice Cloning

文章主要内容总结

JoyTTS是一款端到端的语音聊天机器人,结合了大型语言模型(LLM)与文本转语音(TTS)技术,具备语音克隆能力。其核心信息如下:

  1. 模型基础:基于开源的MiniCPM-o(LLM)和CosyVoice2(TTS)构建,替换了MiniCPM-o原有的GPT-Sovits-based TTS模块以增强语音克隆性能,训练数据涵盖2000小时对话数据(400K多轮文本对话样本,来自RedGPT和GeneratedChat0.4M数据集)。
  2. 模块组成:包含四个核心模块——Tokenizer模块(将文本和音频转换为令牌)、LLM-Chat模块(基于MiniCPM-o的Qwen-7B模型,处理输入并生成文本和隐藏层特征)、LLM-TTS模块(利用隐藏层特征生成语音令牌)、Generator模块(生成最终音频)。
  3. 数据构建:通过CosyVoice2将文本对话转换为音频,并采用数据增强技术(拆分文本为不同长度片段、添加特殊标点)提升模型适应性。
  4. 训练过程:分两阶段进行,先独立训练LLM-Chat(确保隐藏状态与文本标签对齐)和LLM-TTS(聚焦高质量音频生成),再联合训练优化整体性能。
  5. 实验结果:在seed-ttszh测试集上,语音相似度(SS)得分为0.73,词错误率(WER)为5.09,单NVIDIA 4090D上延迟仅1.8秒(无工程优化)。
  6. 开源情况:提供完整训练代码、模型及脚本
### 关于LLM-QAT的研究背景 大型语言模型(LLMs)由于其庞大的参数量,在实际部署过程中面临计算资源消耗巨大的挑战。为了降低这些模型的推理成本并提高效率,研究者们提出了多种优化技术,其中包括量化感知训练(Quantization Aware Training, QAT)。对于特定领域内的应用——即针对大规模预训练的语言模型实施QAT,则通常被称为LLM-QAT。 ### LLM-QAT开山之作及其贡献 一篇具有里程碑意义的工作是由Hawkins et al.发表的一篇论文《Generalized Quantization for Efficient Transformer Inference》[^1]。该研究表明通过引入模拟量化误差到训练过程中的方式来调整权重更新规则,可以在不影响原始精度的前提下显著减少模型大小和加速推断速度。此方法不仅适用于小型网络结构,同样能够有效应用于复杂的Transformer架构之上。 ### 实现细节和技术要点 在这项工作中提出的实现方案主要包括以下几个方面: - **伪量化操作**:在网络前向传播阶段加入额外节点用于执行浮点数至整数表示形式之间的转换;而在反向传播时则忽略这部分影响以保持梯度流稳定。 ```python import torch.nn as nn class FakeQuantize(nn.Module): def __init__(self, quant_min=-128, quant_max=127): super().__init__() self.quant_min = quant_min self.quant_max = quant_max def forward(self, x): scale = (self.quant_max - self.quant_min) / (x.max() - x.min()) zero_point = int(-scale * x.min().item()) + self.quant_min qx = ((x / scale).round_() + zero_point).clamp_(self.quant_min, self.quant_max) return (qx - **自适应缩放因子与零点偏移**:根据不同层或通道特性动态设定最佳映射范围,从而使得整个系统的数值分布更加均匀合理。 - **混合精度策略**:允许部分敏感组件保留较高分辨率的同时对其它非关键路径采用较低位宽表达,以此达到性能最优配置目的。 上述措施共同作用下实现了对原有模型的有效压缩而不损失过多预测准确性,为后续更多深入探索奠定了坚实基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值