
语音学习
TTS和基础语音知识
咕噜咕噜day
day day up!
展开
-
声学术语记录
语音增强与分离相关声学术语原创 2022-03-23 00:45:15 · 208 阅读 · 2 评论 -
Tacotron 2阅读
摘要 本文主要讲了一个将文本合成语音的神经网络架构。系统两部分:第一部分是一个循环的seq2seq结构的预测网络,作用是把字符向量映射到梅尔声谱图;第二部分是接一个修改的wavenet把梅尔声谱图合成时域波形。模型平均意见得分MOS是4.53。 介绍: TTS过去一直是把使用单元挑选和拼接式合成方法。把预先录制的语音波形的小片段合在一起。 统计参数的语音合成方...原创 2019-10-13 07:02:02 · 788 阅读 · 0 评论 -
音频特征提取
常用的取样频率:16k或24k 8bit[-128,127] 和16bit编码[-32768,32767], .wav文件被提取后得出的结果eg:(32,80,789) 首先80就是每个窗口长度是80 ,共789个窗口。比如:帧移动可以是12.5毫秒 提取完特征之后通过stft变换变成一个谱特征...原创 2019-10-13 07:00:27 · 592 阅读 · 0 评论 -
Almost Unsupervised Text to Speech and Automatic Speech Recognition
Abstract: 无监督方法,只需要利用几百对文本—语音对和额外的无标签的数据,提供给TTS和ASR components: 1.a denosising auto-encoder 2. 双机制训练;TTS是把text y转成语音x,ASR把利用x和y进行训练,反之亦然 3. 双向序列建模,主要解决长语音序列和文本序列在训练过程中出现的错误传播问题 4.一个un...原创 2019-10-13 06:58:02 · 556 阅读 · 0 评论 -
FastSpeech: Fast, Robust and Controllable Text to Speech
Abstract: 提出一种基于transformer的新型前馈网络FastSpeech,和自回归的Transformer TTS相比 将梅尔谱的生成速度提高了近270倍。端到端的语音合成速度提高了38倍,大gpu上语音合成速度达到实时语音速度的30倍 Introduction: 基于神经网络的tts和传统语音合成的拼接法和参数法相比,end to end的TTS...原创 2019-10-13 06:55:34 · 1041 阅读 · 0 评论 -
语音和语音合成基本知识
一.语音领域基础知识: 声学特征包括基频 能量 声音质量 频谱等。 基频就是论文中经常出现的F0 feature(pitch),是复杂声波中最低的频率(其他频率叫谐波)。 基频和音高有很紧密的对应关系,它决定语音音调的高低。 陪音频率又叫谐波频率,他们决定语音的音色的差别。 所以两个有相同基频的语音可以因为谐波频率的不同而具有不同的音色;...原创 2019-11-07 22:35:40 · 1759 阅读 · 0 评论 -
语音攻击论文整理
语音攻击的思路就是播放语音攻击命令。 攻击方法: CommanderSong: A Systematic Approach for Practical Adversarial VoiceRecognition:在歌曲中加入语音命令,通过播放歌曲实施攻击 DolphinAttack: Inaudible Voice Commands:超声波音频上带有语音命令,通过设...原创 2019-10-13 07:08:55 · 2021 阅读 · 0 评论 -
N-gram
作用: 通常是基于一定得语料库,用N-gram来预计或者评估一个句子是否合理。 可以用来评估字符串之间的差异程度。 常见的应用: 基于N-Gram模型定义的字符串距离 利用N-Gram模型评估语句是否合理 使用N-Gram模型时的数据平滑算法 N-Gram在模糊匹配中的应用: N-Gram距离,把字符串切分成每个长度为N...原创 2019-10-13 07:07:07 · 381 阅读 · 0 评论 -
语音识别技术之前世今生
原创 2019-04-05 11:17:11 · 406 阅读 · 0 评论