
语音识别
文章平均质量分 59
平凡的兵
AI的实践者
展开
-
翻译Audio-Visual Deep Neural Network for Robust Person Verification
基于音视频深度神经网络的鲁棒性身份确认0 摘要对于说话人确认来说,声音和人脸是两个最普遍的生物特征,通常应用于说话人确认和人脸确认任务。已经有研究证明,将两种模态信息进行融合可以构建更加稳定鲁棒的身份确认系统。本文全面展示多模态学习策略,提出三种音视频深度神经网络,把控特征级AVN-F,embedding级AVN-E,以及embedding级融合联合学习AVN-J。为了进一步加强系统在真实噪声场景的鲁棒性,该场景下,并不是所有的模态信息都能高质量采集,我们提出了多种数据增广策略:特征级数据增广、em原创 2021-04-30 20:55:26 · 413 阅读 · 1 评论 -
Deep Audio-Visual Speech Recognition翻译
原文链接:https://arxiv.org/pdf/1809.02108.pdf这是一批较为系统的介绍音视频融合的语音识别方案。翻译 2021-04-18 20:36:46 · 1921 阅读 · 0 评论 -
语音领域的自适应滤波
自适应滤波的基本原理比较直观,具体可以参考[1]主要说明下期望信号的理解,针对语音增强任务,期望信号就是当前时刻的信号;针对回声消除任务,期望信号就是参考信号。[1]https://zh.wikipedia.org/wiki/%E8%87%AA%E9%80%82%E5%BA%94%E6%BB%A4%E6%B3%A2%E5%99%A8......原创 2020-12-26 12:16:52 · 500 阅读 · 0 评论 -
语音领域的快速傅里叶变换FFT
语音领域,绕不开FFT,无论是语音增强还是语音识别。语音识别时,将时域信号转换为频域信号,起到了特征提取的作用。语音增强时,如去回声和去混响,FFT的算法理解和实现可以参照[1~3]FFT的窗长值得探究,语音识别,窗长是25ms,按照16K采样,也就是400个采样点,但是会扩充到512个采样点,而且是采用直接补112个零。语音增强领域,窗长一般是32ms或64ms,按照16K采用,对应512个或1024个采样点。[1]https://zhuanlan.zhihu.com/p/..原创 2020-12-26 10:56:48 · 5009 阅读 · 1 评论 -
研读Speech separation is the task of separating target speech from background interference
摘要:语音分离是从带背景干扰的语音中抽取目标语音的任务。传统的,语音分离是信号处理问题的研究课题。最近的一些方法将语音分离当做有监督学习研究课题,基于训练数据获得语音、说话人和背景噪声的区分性模式。在过去十年里提出了许多有监督分离算法。特别地,近期的基于深度学习的有监督语音分离显著提升了语音分离效果。本文综述性描述最近几年基于深度学习的有监督语音分离的进展。首先,介绍语音分离的背景以及有监督分...原创 2019-11-27 14:27:05 · 463 阅读 · 0 评论 -
语音端点检测(voice activity detection,VAD)
可以将一段语音片段分为 静音段、过度段、语音段、结束。比较常用的VAD技术是基于短时能量和过零率的双门限端点检测。1. 分别对短时能量和过零率设置两个门限值energy_low, energy_high和zcr_low, zcr_highenergy_high > energy_lowzcr_high > zcr_low2. 计算一帧的短时能量enegry和过零率zcr若e原创 2013-03-12 13:46:05 · 14776 阅读 · 0 评论 -
MLE, DT, MAP简谈
1. MLE模型参数已知,使用训练数据估计参数1.1 目标函数1.2 参数更新2. MAP2.1 目标函数2.2 参数更新声纹注册时使用,利用通用模型(先验)和个人数据(用于最大似然估计)获得最终模型3. MPEDT训练(DiscriminativeTraining)准则: 常用的有MMI(原创 2015-01-31 16:28:15 · 755 阅读 · 0 评论 -
caffe源码 之 dropout层
本文转载自:http://blog.youkuaiyun.com/lanxueCC/article/details/53319872?locationNum=2&fps=1本文主要解析caffe源码文件/src/caffe/layers/Dropout_layer.cpp,该文件实现的功能是防止过拟合。综述 dropout层的作用是防止训练的时候过拟合。在训练的时候,传统的训练方法是每次迭转载 2017-12-21 16:20:38 · 393 阅读 · 0 评论 -
batchnorm
先贴两个公式NCNN代码int BatchNorm::forward_inplace(Mat& bottom_top_blob) const{ // a = bias - slope * mean / sqrt(var) // b = slope / sqrt(var) // value = b * value + a int w原创 2017-12-20 22:19:18 · 531 阅读 · 0 评论 -
Encoder-Decoder模型
起源:2014年,Sutskever提出的简单Enc-Dec模型paper:Sequence to Sequence Learning with Neural Network解决sequence to sequence转换的问题,采用了编码和解码的结构其中,编码是将source sequence转化为一个context vector,解码是将该context vector转化为ta原创 2017-12-10 10:54:10 · 19451 阅读 · 0 评论 -
KLD模型自适应
原创 2016-06-29 13:52:05 · 3283 阅读 · 1 评论 -
Gated Recurrent Neural Networks
Gated Recurrent Neural Networks, GRU原创 2016-04-21 17:55:49 · 2441 阅读 · 0 评论 -
DNN Sparse
思想的由来:观察的重要性在此体现的玲离尽致。微软那一拨人观察发现一般DNN模型参数权值很大比例(70%)小于0.1。有了这个观察结果,他们就开始思考着把这些过小的权值直接置零会如何,如果性能没有太大损失,那就太好了。实验一跑,果不其然。多目标优化问题: 目标一:交叉熵 目标而:非零参数个数 转换为带约束条件的凸优化问题。 sparse模型训练: step1. 正常的CE准则训练(该步之后,原创 2016-03-05 18:54:25 · 1087 阅读 · 3 评论 -
语音端点检测
1. 基于能量双门限VAD存在问题:不能兼顾虚警和漏警,特别是在噪音环境2. 基于能量四门限VAD性能好于双门限VAD,但是在噪音环境还存在一定的虚警和漏警3. 能量VAD和模型VAD的融合可以解决一部分虚警,但是无法解决漏警问题。原创 2015-02-01 12:55:42 · 2902 阅读 · 0 评论 -
语音识别中的置信度问题
对于做语音识别的人来说,置信度的概念也许既熟悉又陌生。何为置信度?比如说你我对话,你讲了一个句话,但我没听清楚或没听懂,你是希望我随便应付一句还是希望我让你再说一遍。这就是置信度,在机器没有“听清”或“听懂”的情况下,提升用户重新输入。原创 2014-03-03 20:03:11 · 5142 阅读 · 0 评论 -
隐马尔科夫模型HMM的理解
HMM解决了三个问题1. Evaluation 评估问题P(o1,o2, ... | M)(1)前向算法(2)后向算法2. Decoding 解码问题P(s1,s2,... | o1,o2,...) 维特比算法3. Learning 参数估计问题P(M | theta)B-W算法(EM算法的特例)原创 2013-03-13 10:16:48 · 636 阅读 · 0 评论 -
语言模型(Language model)
何为语音模型,或者说为什么需要语言模型?对于一门语言,该语言的词典w={w1,w2,...,wm},那么P(w1),P(w2), ... ,P(w1,w2), ... , P(w1,w2,w3), ... 就是该语言的语言模型原创 2013-03-12 14:32:48 · 1125 阅读 · 0 评论