生成式 AI 模型训练实践 | 使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应用

最新推荐文章于 2025-02-05 16:44:53 发布

赞奇科技Xsuperzone

最新推荐文章于 2025-02-05 16:44:53 发布

阅读量974

点赞数 18

文章标签：人工智能语言模型 jupyter 数据分析 AIGC 推荐算法

本文链接：https://blog.youkuaiyun.com/Xsuperzone/article/details/141433775

版权

NVIDIA NeMo 是一个端到端云原生框架，无论是在本地还是在云上，用户可以灵活地构建、定制和部署生成式 AI 模型，更多内容可点击查看：NVIDIA Nemo——用于构建和部署生成式 AI 模型的端到端云原生框架_nv生态下的模型部署、迁移、调试

本期旨在了解和探讨使⽤ NVIDIA NeMo 框架实现 TTS 的训练和推理应⽤。

NVIDIA NeMo 的 ASR (Automatic Speech Recognition)、NLP (Nature Language Processing) 和 TTS(Text-to-Speech) 预训练模型是在多数据集上训练的（包括⼀些语⾔，如中⽂普通话），针对准确性进⾏了优化，可以⽤于训练、微调新模型或在现有预训练模型上进⾏迁移学习。

模型的每个模块（如编码器、解码器）的预训练权重有助于加速特定领域数据的模型训练，同时对于推理⽽⾔，训练好的模型可以很容易地转换为可部署推理的格式。NeMo 也提供了教程帮助⽤户训练或微调⽤中⽂普通话进⾏对话 AI 的模型。

现代 TTS 系统相当复杂，“端到端”（指从原始⽂本到⾳频输出）pipeline 由多个组件组成，每个组件都需要⾃⼰的模型或启发式⽅法。⼀个标准的 pipeline ⼀般包含以下步骤：

图片来源于NVIDIA

1. ⽂本规范化：将原始⽂本转换为⼝语⽂本。

2. 词素到⾳素转换（G2P）：将规范后⽂本的基本单位（即词素/字符）转换为⼝语的基本单位（即⾳素）。

3. 谱图合成：将⽂本/⾳素转换为频谱图。

4. ⾳频合成：使⽤声码器将频谱图转换为⾳频，也称为频谱图反转。

对于后两步（谱图合成、⾳频合成），⽬前⽐较常⽤两步组合的 pipeline，⽐如 Tacotron2 + WaveGlow 的组合，前者是从⽂本⽣成梅尔频谱的模型，后者是从梅尔频谱⽣成⾳频的模型，NeMo的较新进展是基于 FastPitch + HiFi-GAN 的组合。

FastPitch 是基于 FastSpeech 完全并⾏的⽂本到语⾳合成模型，以基频轮廓为条件。该模型在推理过程中预测⾳⾼轮廓，通过改变这些预测，⽣成的语⾳可以更具表现⼒，更符合语句的语义，最终更能吸引听众。

HiFi-GAN 专注于设计⼀种声码器模型，能有效地从中间旋律谱图合成原始波形⾳频。它由⼀个发⽣器和两个鉴别器（多尺度和多周期）组成。⽣成器和鉴别器采⽤对抗训练，并增加了两个损失，以提⾼训练稳定性和模型性能。

NeMo 的“端到端”的模型还在开发中，TTS 推理部署⽅案建议使⽤我们之前分享过的 Triton 的 Ensemble Model 功能以零代码的⽅式组合同时运⾏的多个模块，如⽂本规范化、G2P、编码器等预处理

Triton Ensemble 可以将它们⽆缝组合在⼀起，⽽⽆需编写任何串联代码，实现了零代码的模型串联功能。对于声学模型的解码器、vocoder 以及最后的 Chunk 拼接的 Blender，Triton ensemble 也能以零代码的⽅式将它们组合在⼀起。前述模型包括Mel-Spectrogram Generator和 Vocoder，都可以使⽤ TensorRT 来加速推理。

图⽚来源于NVIDIA

使⽤ NeMo 可以快速实现以上步骤集成 TTS pipeline，NeMo 对于 TTS 训练有完整的⽀持包括：

Model Recipes，模型配⽅包括⽤于训练和评估模型的步骤和⽅法
Configuration Files，训练配置⽂件
Pre-trained Model Checkpoints，预训练模型权重

接下来我们将使⽤ NVIDIA NeMo FrameWork 容器实践 TTS 的训练，特别是频谱模型和⾳频合成器模型的训练和微调。

一、系统环境准备

⼿动安装可以参考 NeMo 的安装指南（https://github.com/NVIDIA/NeMo/blob/stable/docs/source/starthere/intro.rst#installation），这⾥采⽤更简便的官⽅容器⽅式（镜像查询和下载可能需要⼀定的权限，请⾃⾏检查NGC账号权限）。

# pull latest NeMo Framework container
docker pull nvcr.io/nvidia/nemo:24.01.framework

docker run -it -d 
    --cap-add=SYS_PTRACE --cap-add=SYS_ADMIN \
    --security-opt seccomp=unconfined --gpus=all \
    --shm-size=16g --privileged --ulimit memlock=-1 \
    --name=nemo_test -v /home/docker/mnt:/home \
    -p 28888:8888 -p 16006:6006 \
    nvcr.io/nvidia/nemo:24.01.framework

NeMo 部分组件版本信息：

ndc 0.1.0
nemo_toolkit 1.23.0
megatron_core 0.5.0rc0
transformer-engine 1.4.0.dev0+da30634
nemo_aligner 0.1.0rc0

NeMo 容器环境准备好之后，我们看⼀下 FastPitch 和 HiFi-GAN 模型的训练，FastPitch 与⼤多数 NeMo 模型⼀样，是⼀种 LightningModule，⽀持使⽤PyTorch Lightning训练，通过YAML⽂件定义来参数化配置并使⽤Hydra加载。

# NeMo中使用预训练模型生成频谱图
from nemo.collections.tts.models.base import SpectrogramGenerator
from nemo.collections.tts.models import FastPitchModel

from matplotlib.pyplot import imshow
from matplotlib import pyplot as plt

# 查看可使用的