
语音处理
ASR_THU
研究方向:语音处理
展开
-
说话人识别模型(GMM-UBM)
1 声纹能作为判别不同人的依据是什么 每个人的声音都有独特的特征,这个特征由两个音素决定: 1 声腔的尺寸 2 发声器官被操纵的方式(比如声带上的肌肉运动) 这些因素使得声音变得独一无二2 简述一下说话人识别流程 先进行特征提取,然后训练模型,最后是打分判决. 这其中特征提取包括 预加重,分帧加窗,傅里叶变换得到频谱图,之后再进行mel滤波使频谱图更紧...原创 2018-08-28 11:25:46 · 10134 阅读 · 1 评论 -
[语音处理] 声谱图(spectrogram)FBank(Mel_spectrogram)MFCC(Mel倒谱)到底用哪个作为NN输入?
一般来说一段音频先是经过傅里叶变换得到spec,然后经过三角滤波得到mel_spec,最后通过倒谱得到mfcc,这个过程中feature的维度在不断降低,这就意味着可能会存在信息上的损失。那么在nn中到底该选哪个作为输入呢?DNN做声学模型时,一般用fbank,不用mfcc,因为fbank信息更多 (mfcc是由mel fbank有损变换得到的)。 mfcc一般是GMM做声学模型时用的,...原创 2019-04-02 15:32:56 · 5620 阅读 · 0 评论 -
[web] Serialize in JSON a base64 encoded data (xxx is not JSON serializable)
在使用json向web api上传文件(比如图片文件或者音频文件)的时候,json里是不能放bytes类型数据的,否则报错xxx is not JSON serializable那怎么传数据呢?解决方法:先把文件读取成bytes,然后进行字符串化,这样就可以dump了。(注意此时server端接收到这些数据后,要反向转换为bytes才行)客户端:import request...原创 2019-03-14 16:45:58 · 425 阅读 · 0 评论 -
[blog] Avoid These 11 Common Mistakes When Building Voice Applications 语音应用开发中的 11 个常见错误
链接:https://voicebot.ai/2017/06/02/avoid-11-common-mistakes-building-voice-applications/Now that voice applications such as Alexa and Cortana Skills and Google Actions are proliferating, there is inc...翻译 2019-03-09 21:56:33 · 212 阅读 · 0 评论 -
Mel Frequency Cepstral Coefficient (MFCC) tutorial
The first step in any automatic speech recognition system is to extract features i.e. identify the components of the audio signal that are good for identifying the linguistic content and discarding al...翻译 2019-02-27 21:50:22 · 554 阅读 · 0 评论 -
[web] 客户端与服务器之间的通信(预览音频文件,上传音频文件和下载音频文件)
近日在做毕设,需要搭建一个完整的平台,用来对外展示组里的语音相关模型(类似这种)。为了实现这种需求,最关键的是客户端(浏览器)和服务端(server)之间能正确地相互通信。如果你学过计算机网络的话,你会发现,承担这项任务的是HTTP request (浏览器-->服务器)和HTTP response (服务器-->浏览器)。对于后者,现在已经有很多成熟的开源后端框架(nginx+dja...原创 2019-01-12 19:12:13 · 3410 阅读 · 2 评论 -
[论文笔记] TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS
Tacotron:端到端语音合成摘要一个文本到语音的合成系统通常需要经过多个步骤的处理,比如前端文本分析,声学模型,以及音频合成模块。构建这些成分往往需要额外的领域知识并且也可能因此而做出一些经不起检验的设计。本文提出的Tacotron,是一种端到端,文本到语音的生成性模型,可以直接从音素字符信息中生成对应的音频。使用<文本,语音>对,模型可以直接使用随机初始化的参数进行训练,...原创 2019-01-02 17:46:04 · 2562 阅读 · 0 评论 -
[python] windows下使用librosa.load 加载wav文件报错: RuntimeWarning: Couldn't find ffmpeg or avconv
环境:操作系统:windows10 librosa:0.5.1完整报错信息:RuntimeWarning: Couldn't find ffmpeg or avconv - defaulting to ffmpeg, but may not work warn("Couldn't find ffmpeg or avconv - defaulting to ffmpeg, b...原创 2018-12-29 21:22:14 · 8295 阅读 · 2 评论 -
Timit 数据集中音频无法播放,使用python进行格式转换[附Timit 百度网盘下载地址]
Timit原始数据虽然是以wav结尾的但是格式却不是wav,而是sphere格式,用python中的sphfile库把他转换成wav:import params as hpfrom sphfile import SPHFileimport globimport osif __name__ == "__main__": path = 'D:/pycharm_proj/corp...原创 2018-12-29 21:39:00 · 3339 阅读 · 10 评论 -
语音信号处理中的相关概念
陆续补充..基频F0基音的振动频率叫基频(pitch,一般是一个复杂声波中最低的频率(其他频率叫谐波)),它决定语音音调的高低;陪音的频率叫谐波频率,它们决定语音的音色区别。因此,两个具有相同的基频的语音可以因为谐波频率不同而具有不同的音色;相反,两个相同音色的语音可以因为基频的不同而具有不同的音高。[x, fs] = wavread('1.wav');nw = 256;sign...原创 2019-01-03 22:46:06 · 1373 阅读 · 0 评论 -
预处理数据(批量生成语谱图)
传送门:https://www.jianshu.com/p/449627a36e76https://blog.youkuaiyun.com/fzyjsy/article/details/84842568声谱图介绍: 处理语音信号很少直接利用录下來的整段语音波形(speech waveform),而是將波形沿着时间轴,每隔10毫秒切割出一小段长约20至30毫秒的波形來处理,称为短时段分析(s...转载 2018-10-06 15:46:32 · 2925 阅读 · 7 评论 -
语音波形,截断的频域输出以及语谱图制作
传送门: https://blog.youkuaiyun.com/zeroQiaoba/article/details/78589569语音可视化参考链接1 参考链接2 参考链接3今天我想复现一下,文中语谱图提取部分的代码由于输入的语音有单通道和双通道之分,处理方式是单通道不变,双通道只取一个通道的信息。附上代码:import wave as weimport numpy as n...转载 2018-10-05 17:45:34 · 529 阅读 · 0 评论 -
语音相关期刊,会议,工具箱&&语音研究员(2018年)岗位要求
CCF排名中专注于语音的会议似乎没有rank-A的,相关会议和期刊多集中在B和C两个等级(吐槽一下CCF瞎排名hh)1.计算机图形学与多媒体 1.1 B类期刊TOMCCAP 主页 点评和IF "三区期刊,投稿周期约三个月" TMM 主页 点评和IF "6-8个月最终接受" Speech Com 主页 点评和IF ...原创 2018-10-02 10:13:58 · 2378 阅读 · 0 评论 -
[语音处理] .flac文件转.wav文件
在常用的英语语音识别数据库librispeech中,原始语音的格式是.flac,一般来说先要转换成.wav才能继续进行后处理。转换工具可以使用sox (http://sox.sourceforge.net/):sox $flac_path -t wav $wav_path命令很简单,但是缺点是一次只能转换一条语音,所以需要利用脚本完成对librispeech中上万条语音进行自动转换。...原创 2019-04-30 20:07:49 · 4208 阅读 · 2 评论