
语音识别
张念
让你难过的事,你会笑着说出来
展开
-
Timit 脚本理解
数据准备 local/timit_data_prep.sh生成的内容放在data/local/data中。对于train、test和dev,分别生成相应的_sph.flist、_sph.scp、.uttids、.trans、.text、_wav.scp、.utt2spk、.spk2utt、.spk2gender、.stm和.glm文件。NOTE:.wav files a转载 2017-10-27 17:39:02 · 1355 阅读 · 0 评论 -
语音合成(Amazon 接口)
Amazon Polly 文本转语音 (python实现)网页版的长这个样子,需要自己手动输入,比较麻烦,我们希望通过python和一些文件自动合成语音首先需要去官网注册账户,这里有一年的免费体验,注册账户需要信用卡绑定!注册完账号后,需要配置AWS CLI , 它是一个命令行的接口,具体参考AWS CLI使用 Pip 安装 AWS CLI使用 pip 安装 AWS CLI。$ pip in...原创 2018-03-14 14:50:12 · 2816 阅读 · 1 评论 -
语音识别-特征提取 (二)
下面总结的是第四个知识点:MFCC。因为花的时间不多,所以可能会有不少说的不妥的地方,还望大家指正。谢谢。 在任意一个Automatic speech recognition 系统中,第一步就是提取特征。换句话说,我们需要把音频信号中具有辨识性的成分提取出来,然后把其他的乱七八糟的信息扔掉,例如背景噪声啊,情绪啊等等。 搞清语音是怎么产生的对于转载 2018-01-26 10:55:18 · 8590 阅读 · 0 评论 -
语音识别-特征提取 (一)
一.语音的产生简介1.1 发音器官 人体的语音是由人体的发音器官在大脑的控制下做生理运动产生的。人体发音器官由三部分组成:肺和气管、喉、声道。 肺是语音产生的能源所在。气管连接着肺和喉,是肺与声道的联系通道。喉是由一个软骨和肌肉组成的复杂系统,其中包含着重要的发音器官——声带。声带为产生语音提供主要的激励源。声道是指声门(喉)至嘴唇的所有发音器官,包括咽喉、口腔和鼻腔。转载 2018-01-26 10:53:06 · 24398 阅读 · 3 评论 -
Kaldi DNN的特征提取和解码的连接操作
通过读脚本,我们知道了对应的特征提取和dnn的解码过程,得到一个lat(晶格文件),最后通过晶格文件进行分析,得到解码的结果,通过几次尝试,我这里通过wav文件得到了解码的文件,接下来将详细说明:首先是创建独立的文件夹,专门用来测试,里面保存5个文件,分别是:1. t2ss.wav(原始的wav文件) 2. wav.scp(里面是保存了wav的绝对路径) 3. fina原创 2017-11-16 11:03:55 · 3618 阅读 · 2 评论 -
Kaldi 文件打印及其说明
kaldi做文件分析时,需要使用命令调用可执行程序打印文件结构,下面对几种常见的文件做一下说明 1.words.txt 文件和 phones.txt文件(这是数据准备的prepare_lang.sh脚本生成)里面的格式是openfst格式对应的是词 和整数的映射接下来看一下phone文件夹,里面有三种格式 csl int txt ,其实内容都是一样的, 从上原创 2017-11-03 16:45:24 · 3663 阅读 · 0 评论 -
Kaldi 查看不同文件用到的命令
* 1. ark,scp文件~/kaldi/src/featbin/copy-feats ark:raw_mfcc_dev.10.ark ark,t:-|headark存的试二进制文件,scp可以直接用cat命令看。* 2. fst文件~/kaldi/tools/openfst-1.6.2/bin/fstprint L.fst | head -n 10原创 2017-10-26 17:30:09 · 6291 阅读 · 0 评论 -
Kaldi在Window上的安装
文章转载地址: 转载地址本文在Kaldi已有的Windows VS工程及其编译流程说明的基础上,更新有问题的子模块,并添加对VS工程的适配代码,确保Kaldi VS工程在windows平台上编译通过及online-wave-gmm-decode-faster 解码程序的正常运行。Note:1) 本文撰写时间为:2017.Oct.17, 相关代码的版本以此时间点为基准。转载 2017-10-26 17:27:37 · 8535 阅读 · 2 评论 -
Kaldi在虚拟机里面安装
虚拟机: Ubuntu 14.04 Ubuntu下载地址 gcc 建议安装4.8以上版本 ,登陆最好是root, 废话不多说,开始,首先安装虚拟机, 虚拟机安装 , 完成的示意图,快捷键Ctrl+Alt+t打开终端:在终端中键入sudoapt-get update 命令然后输入密码 回车kaldi项目现在托管在github上,需要使用g原创 2017-10-25 09:31:00 · 2815 阅读 · 1 评论 -
生成语言模型
这里主要介绍我使用过的两种根据文本生成语言模型的两种方法1. 通过网站: Sphinx 上传文件,生成对应的语言模型,需要注意的是文件最好不要太大,网站容易报504错误,贴下图吧,傻瓜式的操作方式:2. 使用SRILM 训练语言模型SRILM基本使用方法1、从语料库中生成n-gram计数文件:1ngram-count -text train.txt -order 3 -write train.t...原创 2018-05-11 10:17:09 · 4015 阅读 · 0 评论