语音合成与异常声音检测技术新突破
在语音技术和异常声音检测领域,近期有两项重要的研究成果值得关注,分别是用于端到端文本转语音(TTS)的Accent - VITS模型,以及用于异常声音检测的多分支网络与跨域特征融合(MBN - CFF)模型。下面将详细介绍这两项技术。
Accent - VITS:端到端TTS的口音转换
Accent - VITS是一种基于VITS的端到端模型,具有分层条件变分自编码器(CVAE)结构,旨在实现口音转换。
模型结构
- BN编码器 :由多层一维卷积(Conv1d)、ReLU激活函数、层归一化(Layer Normalization)、Dropout和一层线性投影组成,用于生成均值和方差,被认为具有抗噪性且与说话人无关。
- 先验编码器 :其中的BN解码器作为第一个CVAE结构的解码器,根据说话人身份条件spk,从采样的zpr中提取声学特征的潜在表示,并生成zac的先验正态分布。同时添加了归一化流fθ以提高潜在变量zac先验分布的表达能力。
- 后验编码器 :从波形y中提取潜在表示zac。其梅尔频谱提取器是一个固定的信号处理层,编码器先通过该层从原始波形中提取梅尔频谱,与VITS不同的是,它以梅尔频谱而非线性频谱作为输入。通过多层Conv1d、ReLU激活、层归一化和Dropout提取隐藏向量序列,再由Conv1d层生成后验分布q(zac|y)的均值和方差,最后使用重参数化技巧采样得到zac。
- 解码器 :
超级会员免费看
订阅专栏 解锁全文
1098

被折叠的 条评论
为什么被折叠?



