
语音合成原理与算法实战解读
文章平均质量分 82
语音合成是研究如何让机器尽量逼近人的说话声音为研究主题,语音合成的基本方法以及语音合成的国外研究状况,与主要的语音合成方法分享。
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
AI拉呱
现任资深算法研究员,热爱机器学习和深度学习算法应用,曾获多次获得AI竞赛大奖,拥有多项发明专利和学术论文。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
建立以县区为单位的医保统筹费用预测模型
建立以县区为单位的医保统筹费用预测模型prophet模型基础知识时间序列预测被看作数据科学家必备技能的原因。从预测天气到预测产品的销售情况,时间序列是数据科学体系的一部分,并且是成为一个数据科学家必须要补充的技能。Prophet是Facebook发布的基于可分解(趋势+季节+节假日)模型的开源库。它让我们可以用简单直观的参数进行高精度的时间序列预测,并且支持自定义季节和节假日的影响。prophet有哪些创新点呢?当预测模型没有按预期运行时,我们希望针对问题来调整模型的参数。调整参数需要对时间序列的工作原创 2021-04-06 23:44:27 · 286 阅读 · 0 评论 -
HIFI-Gan:generative adversarial Networks for Efficient and high Fidelity speech synthesis
文章目录摘要前言hifi-gan摘要提出HIFI-gan方法来提高采样和高保真度的语音合成。语音信号由很多不同周期的正弦信号组成,对于音频周期模式进行建模对于提高音频质量至关重要。其次生成样本的速度是其他同类算法的13.4倍,并且质量还很高。前言主流的语音合成大部分分为两个阶段:1)预测低分辨率的中间表示,例如梅尔声谱图或语言特征,从中间表示合成原始波形音频。HIFI-gan主要是解决第二阶段的问题,从梅尔声谱图到高保真度的波形文件。wavenet是一种自回归卷积神经网络,合成高质量的音频的效率原创 2021-01-18 14:52:29 · 2142 阅读 · 0 评论 -
歌声参数法合成代码 (附录部分数据集及demo源代码)
文章目录install 环境数据集准备特征可视化训练时长和声学模型语音参数生成与波形合成主函数源代码install 环境python=3.5$ pip install pysptk pyworld librosa tqdm docopt数据集准备datasets.py# -*- coding:utf-8 -*-# /usr/bin/python'''------------------------------------------------- File Name :原创 2020-10-29 19:39:19 · 873 阅读 · 2 评论 -
TTS数据集BB
文章目录数据集概况样本试听数据集概况女生大约9000+条时长11小时普通话样本试听音频试听 链接: https://pan.baidu.com/s/17GYlI1rM8YyiOB6XScUkPw 密码: ucak标注文件 链接: https://pan.baidu.com/s/1VZrGa2P89uaRQfBw2pd3Lw 密码: uqiu文本文件 链接: https://pan.baidu.com/s/1eWxa5lWaOBKDXMEhfk6zmQ 密码: n原创 2020-10-22 00:01:48 · 731 阅读 · 0 评论 -
参数方法合成语音、歌声:nnmnkwii包实例教程
文章目录matplotlib in dockernnmnkwii base安装快速学习实例功能封装matplotlib in docker# 在容器内保存图片需要配置import matplotlibmatplotlib.use('Agg')nnmnkwii base安装os:linuxpip install pyworld soundfile librosa numpy matplotlib nnmnkwii快速学习实例# 在容器内保存图片需要配置import matplotl原创 2020-09-07 13:35:44 · 699 阅读 · 0 评论 -
merlin 实现中文语音合成基础知识和常见问题汇总
文章目录merlin base术语表MTTS Merlin/Mandarin Text-to-Speech Documentmerlin 安装教程运行Merlin demoMerlin源码理解merlinmerlin算法的基本知识github地址:merlinfront-end text processor: Festivalvocoder: STRAIGHT or WORLDinstallexample :Getting started with the Merlin Speech Synthesis T原创 2020-08-12 13:56:41 · 1208 阅读 · 0 评论 -
语音合成行业研究方法总结
文章目录语音合成参数选择情感语音合成HMMLSTM神经网络语音合成模型音素到倒频谱映射递归神经网络语音合成主要流程框架基于 HMM 的蒙古语语音合成方法参数法:基于深度神经网络的蒙古语语音合成方法端到端语音合成wavenet 声码器基于情感的语音合成语音分析合成算法straight语音合成参数选择特征参数选择:提取语音信号的频谱参数作为模型的特征参数(观测值)语音识别和说话人识别:Mel域倒谱系数(Mel—Frequency Cepstral Coefficiem,,MFCC)参数,倒谱(Cepst原创 2020-07-17 15:42:44 · 625 阅读 · 0 评论 -
音频工具分析实例
文章目录音频特征学习toolspyworldlibrosannmnkwii音频特征学习toolspyworldinstall linux or windowspyworld:https : //github.com/JeremyCCHsu/Python-Wrapper-for-World-VocoderPitch contour(fundamental frequency, F0) 音高轮廓 基频Harmonic spectral envelope 谐波频谱包络Aperiodic sp原创 2020-07-08 10:11:15 · 1038 阅读 · 0 评论 -
语音合成-声学概念和变声变调
声学概念声音是靠波来传播的,区别任何的声音需要依据三个来区分:响度、音高和音色响度音高:声音具有确定的音高,声音就可以使空气以笃定的方式运行。低音就是频率低。一个乐音频率是另外一个乐音的频率的2倍,我就就称为比它高八度,声音的震动频率=音源的振动频率=鼓膜的震动频率。耳朵最低频率:16~20周/秒,最高20000周/秒改变音源的质量也可以改变频率音色傅里叶分析:把多种波看成由很多纯音组成的波的方法音高是由基频决定的。谐波:附加的纯音是谐波。频谱:描述各种波的振幅的大小的图叫..原创 2020-07-08 10:10:19 · 962 阅读 · 0 评论 -
语音合成:transformer tts 论文复现以及dockerfile
Transformer-TTS基于pytorch复现的论文 Neural Speech Synthesis with Transformer Network这个模型合成速度比tacotron快3-4倍,合成质量也比较高。每步大概需要0.5秒。没有使用wavenet声码器,使用tacotron的CBHG模型,使用griffin-lim算法将频谱图转换为原始波。model结构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tL3EG5JP-1593704300755原创 2020-07-02 23:40:00 · 1752 阅读 · 0 评论 -
TTS 最全中文正则化代码:英文处理、数字处理、韵律预测、汉字转拼音
文章目录TTS 最全的前端处理:英文处理、数字处理、韵律预测简单介绍思路核心源代码数字核心源代码韵律核心源代码TTS 最全的前端处理:英文处理、数字处理、韵律预测简单介绍思路英文字母(常见的英文字母转汉语比如:google --谷歌、baidu–百度等时间和数字处理:比如 2020年2月18日:贰零贰零年贰月拾捌日固话:0595-23865596或23880880。 固话:零五...原创 2020-02-17 23:35:10 · 3157 阅读 · 1 评论 -
Speech and Natural Language Processing《资源教程》
Speech and Natural Language Processing#######################################… image:: https://cdn.rawgit.com/sindresorhus/awesome/d7305f38d29fed78fa85652e3a63e154dd8e8829/media/badge.svg:alt: Awesome:target: https://github.com/sindresorhus/awesomeA c转载 2020-05-27 08:23:00 · 1356 阅读 · 1 评论 -
AI最全数据集汇总:语音、歌声、音乐、图片、视频等领域开源数据集链接汇总
文章目录**音乐数据集**百万歌数据集**语音数据集**口语维基百科语料库语音命令数据集零资源语音挑战ISOLET数据集阿拉伯语言语料库TIMIT语料库**音响/自然**环境音频数据集城市声音分类城市声音数据集鸟类音频检测挑战中文文本分类数据集THUCNews中文完形填空数据集清华大学开放中文词库中华古诗词数据库上百种预训练中文词向量《口袋妖怪》跨语种命名对照数据集中文突发事件语料库中国股市爬取信...原创 2020-04-12 23:00:25 · 3769 阅读 · 2 评论 -
音声合成:音高、泛音、谐波、基频 到底是什么概念?
文章目录工具音高基频(基音,fundamental tone)泛音(overtones) == 谐波 (Harmonics)分音 Partials如何看音准?工具Kaldi,虽然非常高效,表现也好,但是忒难用,不灵活,总得改C++代码;PyKaldi,虽然用上了机器学习界宠儿Python,但本质上跟Kaldi还是一回事嘛;PyTorch-Kaldi,虽然灵活了一些,声学模型也易于修改,但是...原创 2020-03-25 15:29:17 · 4900 阅读 · 1 评论 -
TTS:语音合成算法
样本音频1:链接:https://pan.baidu.com/s/1JxMFC5gm9_22fLHBKdPThA 密码:a8yg音频2:链接:https://pan.baidu.com/s/1-nmapV0AYw6p0vFIhCj3HA 密码:87hx链接:https://pan.baidu.com/s/11O7kNqGBSKgMNTUR6VY29w 密码:ace1方法ta...原创 2020-03-09 21:16:12 · 1051 阅读 · 0 评论 -
歌声与tts中音高提取:pyreaper F0提取
pyreaper F0提取# -*- coding:utf-8 -*-# /usr/bin/python'''------------------------------------------------- File Name : reaper Description : AIM: reaper tools Functions: 1....原创 2020-03-09 20:57:58 · 855 阅读 · 0 评论