
研三-语音合成论文
文章平均质量分 57
ruclion
天上一日,地下十年
展开
-
毕设论文第三章删去内容
训练音素后验概率谱Tacotron根据不同训练阶段以及不同参数冻结思路,有不同的训练技巧。直接训练方式为忽略语言的差异直接进行训练,如图\ref{fig:Figure-train-1}。\begin{figure*}[htb] \centering \includegraphics[width = 0.38\textwidth]{figures/train-1.JPG} \caption{音素后验概率谱Tacotron直接训练策略} \label{fig:Figure-t...原创 2021-06-22 19:00:34 · 551 阅读 · 0 评论 -
Towards Fine-Grained Prosody Control for Voice Conversion 论文理解
说明歌声音色转换效果太强了https://arxiv.org/pdf/1910.11269.pdf https://zeroqiaoba.github.io/voice-conversion/0. 摘要原创 2021-03-24 18:04:45 · 474 阅读 · 0 评论 -
ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS 论文理解
0. 说明大神们的文章~原创 2021-03-23 11:45:06 · 344 阅读 · 0 评论 -
2021-3-20组会 Chinese Text Normalization
0. 说明TTS 中前端很重要的工作看上去很简单, 但其实特别特别复杂, 特别麻烦, 特别难 目前如 Crystal, 都是有大约 300 条的规范文件, 通过 Rule 来解决这些问题 那么基于数据的方法, 都有哪些呢, 能不能完全暴力堆数据, 通过覆盖和训练来完成呢? 而且这个貌似是一个一劳永逸的过程, 并不像 TTS 每个人都有特点, 需要训练自己的 TTS 的难点一样1. 问题背景...原创 2021-03-20 15:44:08 · 550 阅读 · 0 评论 -
2021-3-20组会 无监督训练下的音频分离 (音源分离) Unsupervised Audio Source Separation Using Generative Priors
0. 说明一片具体论文的综述原创 2021-03-20 14:07:33 · 1184 阅读 · 0 评论 -
kaldi 工具提取较为准确的 PPG
0. 说明希望通过 Kaldi 可以提取出足够准确, 能够商用的 PPG 提取器~TODO原创 2021-03-20 07:47:52 · 529 阅读 · 1 评论 -
Tacotron 的基于 Guided Attention 的实现
0. 说明和峰哥在讨论 DurING 的先 Force Alignment, 再 Attention 的机制优点时, 峰哥 (我也赞同) 说其实 Guided Attention 训练的时候差不多 只不过 Guided Attention 通过规则, 比较泛化的有了 Force Alignment 的味道, 所以也不能太过 "相信" (当然也要相信) DurING 的对齐思想 不过在 Inference 阶段, 确实Guided Attention 就没有显式帮上忙了, 但是 DurING 的机制可原创 2021-03-20 07:07:59 · 492 阅读 · 0 评论 -
Tacotron 的基于 Forward Attention 的实现
0. 说明Tacotron 的基于 Forward Attention 的实现 (取自别人)感谢 前端小陶 的讨论~在这个 Git 可能会添加:https://github.com/thuhcsi/tacotron/blob/master/model/attention.py原创 2021-03-20 07:03:02 · 287 阅读 · 0 评论 -
Tacotron 的基于 GMM Attention 的实现
0. 说明Tacotron 的基于 GMM Attention 的实现 (取自别人)感谢 qq_43377742 的讨论~原创 2021-03-20 06:50:15 · 742 阅读 · 0 评论 -
中文拼音转换成CMU的音素工具
0. 说明感谢masterwei001~目的: 使用工具, 把中文拼音转换成CMU的音素格式 示例:请帮我%把%温度%调整到%三十度$|Q IY3 NG3 B AE1 NG1 W AO2 % B AA3 % W AH1 N1 D UW4 % T IY2 AW2 JH AH3 NG3 D AW4 % S AE1 N1 SH IY2 D UW41. 工具...原创 2021-03-20 06:29:03 · 1840 阅读 · 1 评论 -
LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech 论文理解
0. 说明VCTK 只有 40 个小时, 不够用. 所以需要读一下 LibriTTS原创 2021-03-16 10:05:11 · 3158 阅读 · 0 评论 -
DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS 论文理解
-1. 说明DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESISDURIAN:告诉网络持续时间的多模态合成比 Tacotron 晚一些的 Paper, 应该是 更容易对齐的好, 希望训的也快0. 摘要在本文中,我们提出了一种通用且鲁棒的多模态合成系统,该系统可以产生很高的 自然语言和面部表情同时出现。该系统的关键部分是持续时间 知情注意力网络(DurIAN),一种自回归模型,其中 已经显性的从持续时间模原创 2021-03-15 12:38:13 · 573 阅读 · 0 评论 -
Sequence to Sequence Learning with Neural Networks 论文理解
0. 说明序列到序列映射 数据学习建模, 使用深度神经网络https://ai.deepshare.net/detail/p_5d54e025bab7d_EUVqzfFX/630 篇精度论文中的一篇, 好好理解下, 为甚么 LSTM 的结构, 能够建模语言/语音模型1.Abstract...原创 2021-03-15 12:19:00 · 336 阅读 · 0 评论 -
2021-3-13组会 Overview of Voice Conversion
0. 说明一些精彩的 VC 展示1. 方法分类1.1. 基于信号的PSOLA (PItch Synchronous Overlap and Add) HNM1.2. 基于模型的1.3. WaveNet Vocoder1.4. Recent Progress on Neural VocoderWaveGAN MelGAN NSF WavGlow原创 2021-03-13 15:58:24 · 258 阅读 · 1 评论 -
专业实践最终总结: 端到端跨语言 TTS
1. 实践目的及意义1.1. 背景意义Code-switch is a common phenomenon in multilingual society around the world [1]. The latest speech synthesis can generate monolingual speech with high identifiable and naturalness [2][3][4][5]. However, they cannot fully handel code-原创 2021-03-12 07:24:43 · 834 阅读 · 0 评论 -
专业实践记录V: 补 - 一种基于PPG一致性的最优映射跨语言音色转换方法
0. 说明记录的是2020-10-10到2020-11-10之间的工作主要描述了一种基于PPG一致性的最优映射跨语言音色转换方法的专利1. 实践任务情景简介由于全球化的兴起,在社交媒体文本、非正式信息和语音导航中,文本或语音出现不同语言内容的交替。在人机口语对话系统中,合成这样的语句时,声音要一致、发音准确并自然,但实际上单说话人双语语料库不易获取。使用跨语言音色转换技术是解决此类任务的重要方法2. 问题描述传统的跨语言音色转换主要存在以下几个方面的问题:1)传统的方法没有有效的、彻原创 2021-03-12 07:07:50 · 500 阅读 · 0 评论 -
专业实践记录IIII: 端到端跨语言音色迁移语音合成论文 - 三步走
0. 说明记录的是2020-2-15到2021-3-8之间的工作主要是跨语言音色迁移的三步走中:Pre-trained Ear Speech Self-trained Ear Speech的系统搭建和实验结果同时也给Tacotron 找到/实现了更好的一版 Pytorch 代码1. Pre-trained Ear Speech详细过程见:https://blog.youkuaiyun.com/u013625492/article/details/1144332291.1. ..原创 2021-03-12 06:45:38 · 664 阅读 · 0 评论 -
基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-EarSpeech 跨语言实验观察
0. 说明把 LJSpeech 的作为 reference, 以及 DataBaker EN, 还有 VCTK 的首先仍然用 55k 的那个 ckpt 其他的设置参看张阳的 Speaker Embedding 版本:https://blog.youkuaiyun.com/u013625492/article/details/1146563201.选取 Reference Speech1.1. 选取音频前 6 个是标贝双语, 分别是 2 个中, 2 个英, 2 个混合 然后两个是 LJSpe..原创 2021-03-11 14:15:58 · 366 阅读 · 0 评论 -
基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-EarSpeech 不跨语言实验观察
0. 说明训练的非常好 进行实验的设置和张阳 Speaker Embedding 的一样:https://blog.youkuaiyun.com/u013625492/article/details/114640032 代码逻辑从:/ceph/home/hujk17/Tuned-GE2E-EarSpeech/FaPig_GE2E_synthesizer.py 开始1.选取 Reference Speech使用里面的 speaker embedding 的路径, 然后替换为 GE2E 的路径, 其...原创 2021-03-11 11:57:28 · 283 阅读 · 0 评论 -
基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 跨语言实验观察
0. 说明把 LJSpeech 的作为 reference, 以及 DataBaker EN 的首先仍然用 7k 的那个 ckpt 虽然目前训练到了 126k, 但是保持和之前不跨语言的对比, 所以不用 (单独开一篇博客, 记录实验观察 (二))1.选取 Reference Speech...原创 2021-03-11 11:15:17 · 214 阅读 · 0 评论 -
基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 不跨语言实验观察
0. 说明训练的还可以, 跑一下 Inference 张阳的 ASV 我还不会用, 所以只能从已有的每个人的 Speaker Embedding 中选取1. 选取 Reference Speech/ceph/home/hujk17/npy-EarSpeech-HCSI-Data/dereverb_npy/SSB0005/mel-SSB00050119-mel.npy|/ceph/home/hujk17/npy-EarSpeech-HCSI-Data/dereverb_npy/SSB0005/sp原创 2021-03-10 17:04:43 · 382 阅读 · 1 评论 -
基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 时 ASV-T-SNE
0. 说明GE2E 的提取在:https://blog.youkuaiyun.com/u013625492/article/details/114433738, 第三章张阳的目前是他直接帮忙提取的现在分别画出这些的 T-SNE 图1. 张阳的 Speaker Embedding原创 2021-03-10 15:17:00 · 212 阅读 · 0 评论 -
FaPig-Tacotron 模型结构和细节
0. 说明原创 2021-03-09 11:04:50 · 232 阅读 · 0 评论 -
基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 搭建
0. 说明用 M2VoC 的数据训练 可以加上 databaker, thucoss 并且可以在RTVC-7 Voice Cloning Model 的 Tacotron Pretrained Model 上忽略 embedding layer, 进行 Tune1.Git Clonegit clonehttps://github.com/ruclion/Pretrained-EarSpeech.gitTuned-EarSpeech -b81428b30a486314577bfbd59...原创 2021-03-06 16:48:14 · 343 阅读 · 0 评论 -
2021-3-6组会 Multi-Scale Emotion TTS 分享
1. Sentence-LevelEmotion EmbeddingGST ...2. Phoneme-LevelEmotion Embedding谢磊老师的论文, ...3.Multi-Scale Emotion Embedding句子, 词, 字, 多个级别, 但是文章没有 Demo4. 翔哥的想法句子级别力度和字级别力度分别能够控制, 更加接近了 TTS-Word 的愿景4.1. 总体框架本质上是显性的句子级别的和字级别的序列都提供给 Tacotron 可以当...原创 2021-03-06 15:58:48 · 461 阅读 · 2 评论 -
2021-3-6组会 图神经网络在 TTS 中的应用
1. GNN 概念1.1. 图神经网络概念G = {V, E}, 有向, 无向, 加权, 非加权, 同构, 异构(不同结构/意义的边/点) 为什么要用? 数据有非欧几里的距离的信息含义 欧几里得距离: 比如识别猫图片的 CNN, 就是可以通过简单的距离就可以描述(不需要建边) 图神经网络: 学习一个包含邻居节点信息的状态特征(state embedding), 表征邻居的就是边, 有了边, 也就升级成为了图1.2. GNN具体结构引入迭代函数 F, (最终可以让图稳定状态, 也可以不稳定原创 2021-03-06 14:22:18 · 370 阅读 · 0 评论 -
基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 应用于 M2VoC 比赛
http://challenge.ai.iqiyi.com/detail?raceId=5fb2688224954e0b48431fe0原创 2021-03-06 08:22:32 · 182 阅读 · 0 评论 -
基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 搭建
0. 说明跑通 Git 上的 RealTime VoiceClone1. Git Clone原创 2021-03-06 07:04:54 · 457 阅读 · 0 评论 -
寒假PyTorch工具第十五天
课程记录课程代码略作业略原创 2021-03-01 16:06:23 · 159 阅读 · 0 评论 -
寒假PyTorch工具第十四天
课程记录gpu的使用和PyTorch 常见报错课程代码参看:https://blog.youkuaiyun.com/huxw_magus/article/details/108024494https://blog.youkuaiyun.com/huxw_magus/article/details/108061775感谢~# -*- coding: utf-8 -*-import osimport numpy as npimport torch# =================...原创 2021-03-01 15:07:55 · 185 阅读 · 1 评论 -
寒假PyTorch工具第十三天
课程记录模型存储加载 ckpt 和 finetune 三大类操作课程代码感谢作者https://blog.youkuaiyun.com/huxw_magus/article/details/108018649https://blog.youkuaiyun.com/huxw_magus/article/details/1080195201. pretrain + 一样 lr 都训练# ============================ step 2/5 模型 =============..原创 2021-03-01 14:31:52 · 386 阅读 · 0 评论 -
寒假PyTorch工具第十二天
课程记录四个nomalization课程代码无作业略原创 2021-03-01 13:45:32 · 113 阅读 · 0 评论 -
寒假PyTorch工具第十一天
课程记录L1, L2正则化和Dropout正则化课程代码参考:https://blog.youkuaiyun.com/weixin_43673376/article/details/107527831, 谢谢~import torchimport torch.nn as nnimport matplotlib.pyplot as pltfrom tools import set_seedfrom torch.utils.tensorboard import SummaryWrit...原创 2021-03-01 12:48:08 · 196 阅读 · 1 评论 -
寒假PyTorch工具第十天
课程记录hook函数和CAM分析课程代码主要参考:https://blog.youkuaiyun.com/huxw_magus/article/details/107975517"""@brief : pytorch的hook函数"""import torchimport torch.nn as nnfrom tools.common_tools2 import set_seedset_seed(1)# ---------------------------...原创 2021-03-01 12:21:28 · 164 阅读 · 2 评论 -
寒假PyTorch工具第九天
课程记录从学习率机制到tensorboard课程代码无明天补吧~原创 2021-02-28 23:13:11 · 218 阅读 · 0 评论 -
寒假PyTorch工具第八天
课程记录从optimizer概念到各种optim课程代码略作业1.优化器的作用是管理并更新参数组,请构建一个SGD优化器,通过add_param_group方法添加三组参数,三组参数的学习率分别为 0.01, 0.02, 0.03, momentum分别为0.9, 0.8, 0.7,构建好之后,并打印优化器中的param_groups属性中的每一个元素的key和value(提示:param_groups是list,其每一个元素是一个字典)1. 控制 ...原创 2021-02-28 19:57:26 · 137 阅读 · 0 评论 -
寒假PyTorch工具第七天
课程记录从权值初始化到各种loss课程代码无作业2.损失函数的reduction有三种模式,它们的作用分别是什么?当inputs和target及weight分别如以下参数时,reduction=’mean’模式时,loss是如何计算得到的?inputs = torch.tensor([[1, 2], [1, 3], [1, 3]], dtype=torch.float)target = torch.tensor([0, 1, 1], dtyp...原创 2021-02-28 19:14:10 · 131 阅读 · 0 评论 -
寒假PyTorch工具第六天
课程记录从卷积层到线性层到激活函数课程代码略作业1.采用1个尺寸为2*2的卷积核对2通道的3*3图像进行卷积,padding=0, stride=1,dilation=0其中 input shape = (3, 3, 2), kernel size = 2*2, 第一个卷积核所有权值均为1,计算输出的feature map尺寸以及所有像素值卷积操作import torch import numpy as np import tor...原创 2021-02-28 17:30:55 · 192 阅读 · 0 评论 -
寒假PyTorch工具第五天
课程记录从模型创建方法到AlexNet课程代码无作业1.采用步进(Step into)的调试方法从创建网络模型开始(net = LeNet(classes=2))进入到每一个被调用函数,观察net的_modules字段何时被构建并且赋值,记录其中所有进入的类与函数例如:第一步:net = LeNet(classes=2)第二步:LeNet类,__init__(),super(LeNet, self).__init__()第三步: Mo...原创 2021-02-28 16:14:12 · 218 阅读 · 0 评论 -
寒假PyTorch工具第四天
课程记录从20种增强方法到椒盐噪声到逻辑直觉课程代码无作业1.将介绍的transforms方法一一地,单独地实现对图片的变换,并且通过plt.savefig将图片保存下来略2.自定义一个增加椒盐噪声的transforms方法,使得其能正确运行见下面代码3.用手机将自己钱包中的100元人民币正面进行拍照,并且放到hellopytorch/lesson/lesson-09/test_data/100文件夹下,通过修改...原创 2021-02-28 14:05:27 · 113 阅读 · 1 评论