1.360AI浏览器将增加500万字长文本阅读
2.魔搭社区:发起ModelScope-Sora开源计划
3.胡润百富:超一半新增财富来自AI
4.Suno-v3音乐生成模型发布,快速生成歌曲
5.OpenAI:"数字语音助手"和"语音引擎"商标申请
6.首个千亿参数多模态金融大模型发布
7.元神进化在北京成立
关注➕公众号【小贾探AI】
本文将介绍语音合成模型Sambert, 包括其模型结构, 以及如何使用开源代码训练Sambert模型.
什么是语音合成 TTS ?
语音合成(Text-to-Speech, TTS) 是指将输入文字合成为对应语音信号的功能,即赋予计算机“说”的能力,是人机交互中重要的一环。现代语音合成在2016年随着WaveNet的出现步入了深度学习合成时代,此时语音合成的效果已经表现出了比拟真人的水准。
一个语音合成系统通常由两部分组成,分别是语言分析部分和声学系统部分,也被称为前端部分和后端部分。
- 语言分析:根据输入的文字信息进行分析,生成对应的
语言学特征(梅尔频谱),想好该怎么读; - 声学系统:根据语音分析部分提供的语音学特征,生成对应的音频,实现
发声的功能,其中声学系统部分直接影响了合成语音的自然度和真实感。
如人类通过大脑传递神经信号驱动肺部和声带发出声音一样,计算机对输入的文本,先后经过语言分析和声学系统,最终合成语音信号。

在语音合成领域,类似FastSpeech的Parallel模型是目前的主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。但是该类模型普遍存在一些效果和性能上的问题,例如:独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定。
今天我们所了解的SAMBERT,是一种基于Parallel结构的改良版TTS模型,优点如下:
- Backbone采用
Self-Attention-Mechanism(SAM),提升模型建模能力。 - Encoder部分采用
BERT进行初始化,引入更多文本信息,提升合成韵律。 - Variance Adaptor对
音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测,再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息,结合自回归结构,进一步提升韵律自然度. - Decoder部分采用
PNCA AR-Decoder,自然支持流式合成。

本文讨论了Sambert在语音合成中的应用,包括其与FastSpeech的对比、模型结构优势,以及使用KAN-TTS进行微调的步骤。
最低0.47元/天 解锁文章
5836

被折叠的 条评论
为什么被折叠?



