
语音
勤劳的凌菲
Try my best! Do myself~~
展开
-
声纹识别技术简介——化繁为简的艺术
问答系统的项目终于落地,从门外汉到做成产品,用了5个月的时间,还是满满的成就感,现在又要向新的领域进发,先从声纹识别的发展史学起。转自:https://blog.youkuaiyun.com/jojozhangju/article/details/78637118声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术。从直觉上来说,声纹虽然不像人脸、指纹的个体差异那样直观可见,但由于每个人的声道...转载 2019-02-26 10:30:26 · 901 阅读 · 0 评论 -
BiLSTM-CRF中CRF层解析-4
2.5 所有路径的总得分上节中,我们介绍了如何计算一个路径的标签得分eSie^{S_i}eSi,那么,还有一个问题需要解决,即怎么计算所有路径的总得分:Ptotal=P1+P2+…+PN=eS1+eS2+…+eSNP_{total} = P_1 + P_2 + … + P_N = e^{S_1} + e^{S_2} + … + e^{S_N}Ptotal=P1+P2+…+PN=eS1...原创 2019-04-24 13:39:09 · 2991 阅读 · 9 评论 -
BiLSTM-CRF中CRF层解析-3
2.3 CRF损失函数CRF损失函数包含了真实路径得分和所有可能路径的总得分,如果预测对的情况下,真实路径在所有可能路径中得分应该是最高的。举个栗子,假设我们数据的标签如下表所示:LabelIndexB-Person0I-Person1B-Organization2I-Organization3O4START5END6...原创 2019-04-23 10:13:22 · 3670 阅读 · 2 评论 -
BiLSTM-CRF中CRF层解析-2
回顾上篇博文中,我们知道CRF层可以从训练数据中学习到一些约束条件,从而确保最终的预测标签序列是有效的。约束条件可能是:一句话中第一个单词的标签应该是“B-“ or “O”,而不能是"I-";“B-label1 I-label2 I-label3 I-…”中,label1, label2, label3 …应该是相同的命名实体标签。如“B-Person I-Person”是有效的,而“B...原创 2019-04-22 16:22:06 · 3228 阅读 · 2 评论 -
BiLSTM-CRF中CRF层解析-1
最近,使用BiLstm-CRF模型,但是对CRF层的算法实现不是很理解,在网上找了很多资料也没解答我心中的疑问,后边看到了英文版的解析,很清晰,因此,将其进行翻译。...原创 2019-04-22 13:50:03 · 4653 阅读 · 0 评论 -
隐马尔可夫(HMM)、前/后向算法、Viterbi算法
转自:https://www.cnblogs.com/sddai/p/8475424.htmlHMM一直想彻底弄明白,这篇文章较为通俗易懂,留下来多看几遍HMM的模型 图1如上图所示,白色那一行描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,蓝紫色那一行是各个状态生成可观测的随机序列话说,上面也是个贝叶斯网络,而贝叶斯网络中有这么一种,如下图:代表:c确定时a和b独立。(c为...转载 2019-04-17 09:24:24 · 1218 阅读 · 3 评论 -
Deep Speaker笔记
结构图及解析输入:每个miniBatch的数据格式为(N, C, H, W),N为batch_size, C为通道数,此处的数目为3,顺序为delta2 delta1 fbank, H文章中为时间帧数,该参数是可变的,但是在每个miniBatch中是一样的, W为每帧的特征数目,文章中取值为64。Deep architecture:ResCNNdim参数的理解请参照图下边的蓝色注释,...原创 2019-04-03 10:35:25 · 1258 阅读 · 2 评论 -
Utterance-level Aggregation For Speaker Recognition In The Wild笔记
论文链接:https://arxiv.org/abs/1902.10107v1开源代码:http://www.robots.ox.ac.uk/~vgg/research/speakerID/网络结构主干网络:Thin-ResNet,提取frame-level特征NetVLAD或GhostVLAD层:将frame-level的特征转换成utterance-level特征。大多数算法是采用...原创 2019-04-04 09:01:34 · 1367 阅读 · 0 评论 -
如何用深度学习进行语音识别
作者:九五要当学霸链接:https://zhuanlan.zhihu.com/p/24703268来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处原文:Adam Geitgey原文链接:https://medium.com/@ageitgey/machine-learning-is-fun-part-6-how-to-do-speech-recogn...转载 2018-08-22 10:20:30 · 22029 阅读 · 0 评论 -
MFCC
转自:https://www.cnblogs.com/BaroC/p/4283380.html在任意一个Automatic speech recognition 系统中,第一步就是提取特征。换句话说,我们需要把音频信号中具有辨识性的成分提取出来,然后把其他的乱七八糟的信息扔掉,例如背景噪声啊,情绪啊等等。 搞清语音是怎么产生的对于我们理解语音有很大帮助。人通过声道产生声...转载 2018-08-24 16:47:27 · 19987 阅读 · 5 评论 -
BiLSTM-CRF中CRF层解析-5
2.6 预测标签在之前的章节中,我们详细地介绍了BiLSTM-CRF模型和CRF损失函数的细节,大家可以采用开源工具(Keras, Chainer, TensorFlow等)完成自己的BiLSTM-CRF模型。模型搭建过程中,非常重要的是反向传播的实现,不要担心,这些框架在训练过程中可以自动的完成反向传播(即,计算梯度、更新模型参数)。而且,有一些框架已经完成的CRF层,此时,添加CRF层就只是...原创 2019-04-25 10:12:00 · 2548 阅读 · 7 评论