
语音识别
cheetah_qiufeng
这个作者很懒,什么都没留下…
展开
-
ubuntu上安装ESPnet
ESPnet是一个端到端的语音处理工具,主要侧重于端到端语音识别和端到端语音合成。ESPnet使用chainer和pytorch为主深度学习引擎,同时也遵循Kaldi风格的数据处理、特征提取格式。原创 2020-05-21 22:11:09 · 1417 阅读 · 0 评论 -
ubuntu上安装kaldi
首先下载kaldi.环境 Ubuntu16.04 系统git clone https://github.com/kaldi-asr/kaldi下载完成后进入tools目录.执行 extras/check_dependencies.sh 检查下有哪些包没有安装。执行sudo apt-get install automake autoconf sox gfortran subversion 安装缺少的包。安装完这些再执行extras/install_mkl.sh 安装mkl。...原创 2020-05-17 12:53:40 · 1598 阅读 · 0 评论 -
Athena跑aishell数据集
Athena是端到端自动语音识别(ASR)引擎。当前,该项目支持基于 Connectionist Temporal Classification (CTC)的模型,基于transformer-basesd encoder-decoder model and Hybrid CTC/attention的模型的训练和解码,以及unsupervised pretraning。原创 2020-04-08 14:33:31 · 1992 阅读 · 11 评论 -
kaldi中使用PyTorch训练模型
Daniel Povey 去年年末在小米开发者大会上说要打造下一代kaldi。目前官方网站上已经有一些进展,已经使用pybind11将Python接口添加到Kaldi中,在pybind11分支中。目前 Kaldi Pybind 仍然在开发完善中,不过可以下载下来实验。拉取最新代码。切换到 pybind11分支git checkout pybind11cd pybindpip ins...原创 2020-03-22 00:22:55 · 1213 阅读 · 1 评论 -
Ubuntu上Kaldi跑librispeech数据集步骤
Kaldi跑librispeech步骤步骤分为数据准备跟训练模型kaldi环境默认是安装好的,这里不详细说明kaldi的安装步骤,这里的实验室在Ubuntu16.04上跑的。一、数据准备数据准备分为两种:手动下载跟脚本下载。1.手动下载1.1下载训练数据:从http://www.openslr.org/12/网址下载librispeech数据下载train-clean-100.t...原创 2020-03-21 17:05:49 · 4615 阅读 · 8 评论 -
Kaldi中语音数据增强方法
在实际应用中,有时候数据不是很多,可以用数据增强方式扩展数据,在小的数据集上效果比较明显。语音数据增强主要有以下几种方式:音速扰动sputils/data/perturb_data_dir_speed_3way.sh音量扰动vputils/data/perturb_data_dir_volume.sh加上去年谷歌提出新型自动语音识别SpecAugment数据增强方式SpenAugm...原创 2020-03-20 16:22:59 · 3654 阅读 · 1 评论 -
kaldi中修改phones中音素个数
在工程项目中,有一天项目组说我们做语音评测的不需要这么多音素来表示,我们的产品英语语音评测是参考libirispeech中的脚本来修改的,默认是有360多个音素来表示的,查看phones.txt文件中,发现实际上音素包含有位置信息。kaldi中修改音素个数,将脚本中prepare_lang.sh中设置position-dependent-phones false 即可utils/prepar...原创 2020-03-20 14:17:08 · 539 阅读 · 0 评论 -
kaldi中使用迁移学习进行模型训练
在现实中我们学习语音识别过程中,我们可能没有那么多语音语料怎么办?我们可以采用别人训练出来的模型进行迁移学习。那么在kaldi中如何迁移学习呢?在kaldi中实际上很方便简单,只要在local/chain/tuning/run_tdnn_1d.sh脚本文件中配置下已有的声学模型文件即可,final.mdl 为已训练好的声学模型文件。如果没有大型的GPU服务器做实验,在kaldi官网上htt...原创 2020-03-20 13:28:27 · 1563 阅读 · 14 评论 -
Facebook 开源语音识别工具wav2letter环境搭建
wav2letter ++是Facebook AI Research语音团队的快速开源语音处理工具包,它是一个简单高效的端到端自动语音识别(ASR)系统。它完全用C ++编写,使用ArrayFire张量库和flashlight机器学习库来实现最高效率。该软件的目标是促进端到端语音识别模型的研究。 下面我们来搭建wav2letter ++开发环境。我的环境是ubuntu1...原创 2019-04-01 21:40:21 · 2217 阅读 · 1 评论