TTS文本合成语音｜Sambert微调

最新推荐文章于 2025-10-15 17:23:41 发布

原创

最新推荐文章于 2025-10-15 17:23:41 发布 · 2.7k 阅读

37 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #音视频

本文讨论了Sambert在语音合成中的应用，包括其与FastSpeech的对比、模型结构优势，以及使用KAN-TTS进行微调的步骤。

该文章已生成可运行项目，

今日AI资讯

1.360AI浏览器将增加500万字长文本阅读
2.魔搭社区：发起ModelScope-Sora开源计划
3.胡润百富：超一半新增财富来自AI
4.Suno-v3音乐生成模型发布，快速生成歌曲
5.OpenAI："数字语音助手"和"语音引擎"商标申请
6.首个千亿参数多模态金融大模型发布
7.元神进化在北京成立

关注➕公众号【小贾探AI】

本文将介绍语音合成模型Sambert, 包括其模型结构, 以及如何使用开源代码训练Sambert模型.

什么是语音合成 TTS ？

语音合成(Text-to-Speech, TTS) 是指将输入文字合成为对应语音信号的功能，即赋予计算机“说”的能力，是人机交互中重要的一环。现代语音合成在2016年随着WaveNet的出现步入了深度学习合成时代，此时语音合成的效果已经表现出了比拟真人的水准。

一个语音合成系统通常由两部分组成，分别是语言分析部分和声学系统部分，也被称为前端部分和后端部分。

语言分析：根据输入的文字信息进行分析，生成对应的语言学特征(梅尔频谱)，想好该怎么读；
声学系统：根据语音分析部分提供的语音学特征，生成对应的音频，实现发声的功能，其中声学系统部分直接影响了合成语音的自然度和真实感。

如人类通过大脑传递神经信号驱动肺部和声带发出声音一样，计算机对输入的文本，先后经过语言分析和声学系统，最终合成语音信号。

在语音合成领域，类似FastSpeech的Parallel模型是目前的主流，它针对基频（pitch）、能量（energy）和时长（duration）三种韵律表征分别建模。但是该类模型普遍存在一些效果和性能上的问题，例如：独立建模时长、基频、能量，忽视了其内在联系；完全非自回归的网络结构，无法满足工业级实时合成需求；帧级别基频和能量预测不稳定。

今天我们所了解的SAMBERT，是一种基于Parallel结构的改良版TTS模型，优点如下：

Backbone采用Self-Attention-Mechanism(SAM)，提升模型建模能力。
Encoder部分采用BERT进行初始化，引入更多文本信息，提升合成韵律。
Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测，再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息，结合自回归结构，进一步提升韵律自然度.
Decoder部分采用PNCA AR-Decoder，自然支持流式合成。