自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

翻译 FAST AND HIGH-QUALITY SINGING VOICE SYNTHESIS SYSTEM BASED ON CONVOLUTIONAL NEURAL NETWORKS

摘要本文介绍了基于卷积神经网络(CNN)的歌声合成。当前提出的基于深度神经网络(DNN)的唱歌声音合成系统,并且改善合成唱歌声音的自然性。由于歌声代表着丰富的表达形式,因此需要一种强大的技术来准确地对它们进行建模。在提出的技术中,歌唱声音的长期依赖性由CNN建模。为每个包含长期帧的片段生成一个声学特征序列,并且无需参数生成算法即可获得自然轨迹。此外,提出了一种计算复杂度降低技术,该技术根据乐谱特征的类型以不同的时间单位驱动DNN。 实验结果表明,该方法能够比传统方法更快地合成自然的歌声。引言深度神

2021-04-06 17:49:52 560

转载 学习笔记之attention

参考一文看懂 Attention(本质原理+3大优点+5大类型)完全解析RNN, Seq2Seq, Attention注意力机制1、Attention 的本质是什么Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「从关注全部到关注重点」。1-1 Attention 的3大优点参数少:模型复杂度跟 CNN、RNN 相比,复杂度更小,参数也更少。所以对算力的要求也就更小。速度快:Attention 解决了 RNN 不能并行计算的问题。Attention机制每一步

2021-03-21 20:10:00 335

转载 知识点学习之LPCNet

参考文章语音合成(speech synthesis)方向三:声码器lpcnet系列一、什么是LPCNet目前,声码器大致可以分为基于相位重构的声码器和基于神经网络的声码器。基于相位重构的声码器主要因为TTS使用的声学特征(mel特征等等)已经损失相位特征,因此使用算法来推算相位特征,并重构语音波形。基于神经网络的声码器则是直接把声学特征和语音波形做 mapping,因此合成的音质更高。目前,比较流行的神经网络声码器主要包括wavenet、wavernn、melgan、waveglow、fastspee

2021-03-13 15:44:55 3121 1

转载 语音特征学习之声学谱系数

相关参考资料:从Mel谱预测lpc系数语音合成中的Mel谱和MFCC谱无区别语音特征小结幅度谱、相位谱、能量谱等语音信号处理中的基础知识傅里叶变换 相位谱 幅度谱语音信号线性预测(LPC)分析一、MFCCMFCC,即梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients)。是一种非线性映射,根据人耳对不同频率的声波有不同的听觉敏感度进行映射的。计算流程图音频时域信号分帧对每一帧进行傅里叶变换,并取幅值,得到线性谱对线性谱进行 Mel 刻度的

2021-03-11 23:28:42 1251

翻译 DurIAN: Duration Informed Attention Network For Speech Synthesis

@[TOC]# 系列文章目录提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加例如:第一章 Python 机器学习入门之pandas的使用提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档DurIAN: Duration Informed Attention Network For Speech Synthesis前言在本文中,我们提出了一种强大而有效的语音合成系统,可以生成高度自然的语音。系统的关键组件是 Duration Informed Attentio

2021-03-11 21:58:36 902

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除