
语音
文章平均质量分 79
AllyLi0224
这个作者很懒,什么都没留下…
展开
-
alize使用参考
参考文献及其源码:https://github.com/ibillxia/VoicePrintRecohttp://blog.youkuaiyun.com/zhangxueyang1/article/details/54232584http://alize.univ-avignon.fr/该框架轻便灵巧,使用了传统方法实现了说话人识别功能。由于自己想使用深度学习的方法去做这原创 2017-09-14 16:09:31 · 1358 阅读 · 0 评论 -
声纹识别综述
声纹识别由三部分组成:特征,模型,得分。特征方面:MFCC/PLP/FBank等短时频谱特征;D-vector (谷歌2014年提的)Deep feature / Bottleneck feature /Tandem feature (三者不是并行关系,可以搜关键词查看相关论文)模型方面:GMM-UBMJFA (Joint Factor Analysis)GMM-UBM i原创 2017-10-10 17:40:48 · 7143 阅读 · 9 评论 -
语音识别标准中WER和SER解释
在语音识别中,常用的评估标准为词错误率WER,WER计算方式为:为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换,删除,或者插入某些词,这些插入,替换,删除的词的总个数,除以标准的词序列中词的个数的百分比,即为WER,其计算公式如下所示:需要注意的是,因为有插入词,所以WER有可能大于100%,例子:如下图所示:第一行为标准的词序列转载 2017-10-23 11:29:11 · 13164 阅读 · 0 评论 -
ffmpeg的详细使用方法
今天在做语音识别的工作时,遇到一个问题,用自己的音频进行识别,提示错误:sample rate is more than 16KHz。解决办法:ffmpeg -y -i "0.wav" -ar 16000 -ac 1 "1.wav"上面的命令顺便将声道也转换成了单声道。在我们使用ffmpeg的过程中,可能简单的几个命令字符即可解决问题,但是若用的不一样或者少原创 2017-10-26 16:17:19 · 8923 阅读 · 0 评论 -
kaldi训练thchs30详细步骤
一、下载源码,https://github.com/kaldi-asr。二、进入thchs30/s5文件夹,修改run.sh里面的数据路径,我才用了直接下载的方式,因为之前没有这方面的数据。三、修改cmd.sh: export train_cmd=run.plexport decode_cmd=run.plexport mkgraph_cmd=run.ple原创 2017-10-26 16:42:22 · 8301 阅读 · 3 评论 -
kaldi中改写sre10/v1用timit dataset做说话人识别总结
首先非常感谢david-ryan-snyder 提供的帮助,非常耐心的给出问题的解答。 经过一个周的调试修改,终于在timit数据集上跑通了sre10中的v1 demo, 特来总结一下,重新理顺一下思路,把其中的各个步骤的算法大体的捋一遍。 最重要的还是数据准备阶段,由于没有原始的数据,整个过程进行的比较困难,花了差不多一个周的时间来各种改,之前第一次跑wsj那个demo的时候才花了不到一转载 2017-11-06 17:48:07 · 2556 阅读 · 3 评论 -
kaldi使用tri4b进行测试时的调参
测试完tri1的模型后,一定很想试试tri2或3.但当你操作时,会遇到如下的问题:ERROR (online-wav-gmm-decode-faster:LogLikelihoods():diag-gmm.cc:533) DiagGmm::ComponentLogLikelihood, dimension mismatch 39vs. 40怎么解决? 答案:1、原创 2017-11-27 14:27:41 · 2859 阅读 · 7 评论 -
使用darknet训练分类器
参考:https://pjreddie.com/darknet/train-cifar/1、在工程目录下新建labels.list,classifier 中train函数路径为了一致也要改动。labels.list内容如下:n00n01n022、在cfg文件夹下新建imagenet1k.data,用于指示路径等信息,内容如下:3、在工程项目目录下建立train文件夹原创 2017-10-09 18:12:06 · 5957 阅读 · 10 评论 -
kaldi生成自己数据的mfcc
两个月前为了走通整个流程,只是在yesno中生成了部分样本的mfcc,针对大批量数据的训练需求远不能满足,因此必须走出这种有风险的方法。今天介绍一种没有任何遗漏的方法,整体流程如下:1、修改wav文件为真正的wav文件:#!/bin/bashindexForSave = wavfor file in /home/kaldi/examples/*do if [ -d "$原创 2017-12-27 16:09:54 · 3249 阅读 · 0 评论 -
kaldi问题:local/score.sh: line 56: bc: command not found
local/score.sh: line 56: bc: command not found解决办法:yum install bc原创 2017-10-19 11:08:33 · 1410 阅读 · 0 评论 -
kaldi问题:queue.pl: error submitting jobs to queue
queue.pl: error submitting jobs to queue (return status was 32512)sh: 1: qsub: not found解决办法:打开cmd.shexport train_cmd=queue.plexport decode_cmd="queue.pl --mem 4G"export mkgr原创 2017-10-19 11:07:15 · 2179 阅读 · 0 评论 -
语谱图的生成
最近一直在做语音方面的工作,由于任务需要所以提取MFCC特征,并保存为语谱图,在以下的讲述中我并没有用到什么源码或者相关理论,但是它给了一个很好的诠释,让我在写自己的代码时有章可循,谢谢原著作者。需要注意的是,下文中的data.txt的来源:1.使用Matlab的函数audiorecorder进行录音2.使用Matlab的函数getaudiodata获取音频数组原创 2017-09-25 17:11:22 · 9501 阅读 · 0 评论 -
wav文件读取参考
在实现一个音频处理功能的过程中,需要对wav文件进行处理。我们知道在matlab中有现成的函数wavread('wavtest.wav'),本文的用途就是用c++代码实现该函数的功能。读者可以在vs中新建一个工程,再将本文的代码粘贴在文件中,编译运行:生成 —>编译 —>生成wavread(U),打开vs工程目录,例如我的是我的文档/Visual Studio 2013/Projects/wa原创 2017-09-14 16:13:52 · 1907 阅读 · 0 评论 -
Kaldi中特征文件格式的转换
1、kaldi中的ark文件与htk中的mfcc文件的互相转换 (1)、ark转mfcc 使用底层命令copy-feats-to-htk Save features as HTK files: 每个发音会转化为一个对应的htk格式的特征文件,后缀可以自己定义转载 2017-09-14 16:58:14 · 950 阅读 · 0 评论 -
kaldi简单使用笔记***
参考:http://blog.youkuaiyun.com/foolsnowman/article/details/511152041 Kaldi安装 git clone https://github.com/kaldi-asr/kaldi.git kaldi-trunk --origin golden cd kaldi-trunk cd tools/extras ./check_dep转载 2017-09-14 17:00:21 · 1050 阅读 · 0 评论 -
使用kaldi进行特征提取时的问题记录
问题:解决办法:修改conf目录下的conf文件,将原来的数据改为1600,即可解决此问题。原创 2017-09-22 19:44:10 · 614 阅读 · 0 评论 -
CentOS 6&7安装ffmpeg
CentOS 6和7安装方法是不一样的,下面分别说明:安装前都需要先安装epel扩展源yum -y install epel-releaseCentOS 6比较简单,安装yum源之后直接安装即可:su -c 'yum localinstall --nogpgcheck https://download1.rpmfusion.org/free/el/rpmfusion转载 2017-09-22 19:47:38 · 527 阅读 · 0 评论 -
在centos中视频转音频的命令
参考链接:http://www.xuebuyuan.com/1116822.html今天使用了:ffmpeg -i input.mp4 output.wav原创 2017-09-22 19:49:19 · 424 阅读 · 0 评论 -
生成语谱图
参考:https://github.com/vsergeev/audioprism原创 2017-09-15 11:24:20 · 3010 阅读 · 0 评论 -
实现循环音视频转换
#!/bin/bashindexForSave = wavfor file in /home/kaldi/examples/*do if [ -d "$file" ] then echo "$file is a directory" elif [ -f "$file" ] then echo "$fil原创 2017-09-25 10:52:16 · 378 阅读 · 0 评论 -
音频分段截取步骤
第一:下载迅雷看看,也可下载其升级版迅雷影音,我是直接在360软件中心下载。第二:将自己的视频用迅雷看看的播放器打开,观察画面声音是否清晰。第三:在播放的过程中,鼠标右击视频屏幕的中间位置,在弹出的下拉菜单中选择截取和转码。第四:选择自己想要截取的时间段,然后点击保存。第五:在单选框中选择第一个只保存音频,然后点击确定。第六:等待保存成功,则关闭该页面,它会自动播放原来画面。原创 2017-12-28 18:55:40 · 5653 阅读 · 0 评论