TTS文本合成语音|Sambert微调

本文讨论了Sambert在语音合成中的应用,包括其与FastSpeech的对比、模型结构优势,以及使用KAN-TTS进行微调的步骤。
该文章已生成可运行项目,
今日AI资讯
1.360AI浏览器将增加500万字长文本阅读
2.魔搭社区:发起ModelScope-Sora开源计划
3.胡润百富:超一半新增财富来自AI
4.Suno-v3音乐生成模型发布,快速生成歌曲
5.OpenAI:"数字语音助手""语音引擎"商标申请
6.首个千亿参数多模态金融大模型发布
7.元神进化在北京成立

关注➕公众号小贾探AI

本文将介绍语音合成模型Sambert, 包括其模型结构, 以及如何使用开源代码训练Sambert模型.

什么是语音合成 TTS ?

语音合成(Text-to-Speech, TTS) 是指将输入文字合成为对应语音信号的功能,即赋予计算机“说”的能力,是人机交互中重要的一环。现代语音合成在2016年随着WaveNet的出现步入了深度学习合成时代,此时语音合成的效果已经表现出了比拟真人的水准。

一个语音合成系统通常由两部分组成,分别是语言分析部分和声学系统部分,也被称为前端部分和后端部分。

  • 语言分析:根据输入的文字信息进行分析,生成对应的语言学特征(梅尔频谱),想好该怎么读;
  • 声学系统:根据语音分析部分提供的语音学特征,生成对应的音频,实现发声的功能,其中声学系统部分直接影响了合成语音的自然度真实感

如人类通过大脑传递神经信号驱动肺部和声带发出声音一样,计算机对输入的文本,先后经过语言分析和声学系统,最终合成语音信号。

在语音合成领域,类似FastSpeech的Parallel模型是目前的主流,它针对基频(pitch)能量(energy)时长(duration)三种韵律表征分别建模。但是该类模型普遍存在一些效果和性能上的问题,例如:独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定

今天我们所了解的SAMBERT,是一种基于Parallel结构改良版TTS模型,优点如下:

  1. Backbone采用Self-Attention-Mechanism(SAM),提升模型建模能力。
  2. Encoder部分采用BERT进行初始化,引入更多文本信息,提升合成韵律。
  3. Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测,再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息,结合自回归结构,进一步提升韵律自然度.
  4. Decoder部分采用PNCA AR-Decoder,自然支持流式合成。

本文章已经生成可运行项目
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值