
智能语音
文章平均质量分 62
智能语音
安安爸Chris
这个博客用于写自己兴趣所在的内容,主要是源码阅读和智能语音相关的。 我另一个博客主要写工作相关的,请参考https://www.jianshu.com/u/3f1c3f228fa5
展开
-
什么是CMU Pronoucing Dictionary(CMU发音词典)
CMUdictCMU Pronoucing Dictionary一般会简写为CMUdict,CMU的含义是Carnegie Mellon University(卡耐基梅隆大学)的缩写。CMUdict的第一个版本是卡耐基梅隆大学在1993年发布的,在其0.7a版本后,2008年后采用了BSD license。Phoneme Set 音素集合一共有39个基本音素(未包含变种)PhoneExampleTranslationAAoddAA DAEatAE TAHh原创 2021-12-26 11:43:32 · 4692 阅读 · 0 评论 -
编译phonetisaurus时configure找不到openfst的问题解决
PhonetisaurusPhonetisaurus是用于做g2p(grapheme to phoneme)的工具,它的源码地址在这里。编译它的编译依赖openfst,在编译openfst时,如果不指定构建路径在系统路径下,生成的include和lib可能就无法被直接引用到。所以在编译Phonetisaurus时,特别是在configure步骤,会提示依赖的openfst找不到。checking for openfst libraries... configure: error: Can't fi原创 2021-12-26 00:51:43 · 458 阅读 · 0 评论 -
【matlab】meshgrid的使用
函数参数列表[X,Y] = meshgrid(x,y)[X,Y] = meshgrid(x)[X,Y,Z] = meshgrid(x,y,z)[X,Y,Z] = meshgrid(x)meshgrid可以生成2D或者3D的矩阵,如果为2D,矩阵的shape为(y.length, x.length)如果为3D,矩阵的shape为(y.length, x.length,z.length)代码示例sample1x=1:2; %length 2y=3:5; %length 3[X,Y]=m原创 2021-03-17 11:26:31 · 773 阅读 · 0 评论 -
听歌识曲原理探究以及样例代码
技术故事听歌识曲是一个很成熟的技术。现在的主流音乐播放器,几乎都有这个功能。但是第一个吃螃蟹的是上个世纪末的一个叫**“Shazam Entertainment Limited”**的公司,后来该公司在2018年被Apple以4亿美金收购了。上图是ShazomApp,用于Identitying the songs playing around you.算法实现算法的实现基于论文 An Industrial-Strength Audio Search AlgorithmConstellat原创 2021-07-11 17:42:37 · 3313 阅读 · 4 评论 -
【k-means clustering】【一】基础算法
算法描述输入样本集: X={x1,x2,...xn}X=\{x_1, x_2,... x_n\}X={x1,x2,...xn}聚类簇数K输出划分 C={c1,c2,...ck}C=\{c_1, c_2, ... c_k\}C={c1,c2,...ck}最大迭代次数N从数据集X中随机选择k个数据作为初始k个质心(centroids) {μ1,μ2,...μk}\{\mu_1, \mu_2,... \mu_k\}{μ1,μ2,...μk}对于n=1,2,…N,a) 将C初始化原创 2021-02-28 11:16:24 · 223 阅读 · 0 评论 -
【Kaidi安装问题】install_mkl.sh报错,没有数字签名
问题执行install_mkl.sh时报如下错误:由于没有公钥,无法验证下列签名: NO_PUBKEY FCAE110B1118213C问题根因实际上该问题跟安装Kaldi没有关系。因为系统(Ubuntu 16.04)长时间没有更新,有些ppa的密钥系统中不存在。解决方案在控制台里执行如下操作gpg --keyserver keyserver.ubuntu.com --recv FCAE110B1118213C# 注意:FCAE110B1118213C是我当前不存在的key,你要换成你自原创 2020-07-14 10:53:18 · 602 阅读 · 0 评论 -
【openfst样例2】Downcasing Text
Execise Data files样例中需要的数据来源:http://www.openfst.org/twiki/bin/view/FST/FstExamples如果无法访问,可以在这里下载Execise 2 Downcasing Text该例子将输入转为小写字母首先,需要一份字母转换的fst.full_downcase.fst0 0 <space> <space>0 0 ! !0 0 " "0 0 # #0 0 $ $0 0 % %0 0 &原创 2020-10-12 20:26:11 · 240 阅读 · 0 评论 -
【openfst样例1】Tokenization
Execise Data files样例中需要的数据来源:http://www.openfst.org/twiki/bin/view/FST/FstExamples如果无法访问,可以在这里下载Execise 1 Tokenization第一个示例将ASCII字符序列转换为带有标点符号和去除空格的单词标记序列。 为此,我们将需要一个词典换能器,该词典换能器将从字母映射到其对应的单词标记。 一种简单的生成方式是使用OpenFst文本格式。 例如,“Mars”一词的格式为:fstcompile --i原创 2020-10-10 23:58:05 · 1946 阅读 · 1 评论 -
【Kaidi安装问题】下载mkl过慢
执行install_mkl.sh时会下载mkl,但是国内速度过于慢,而且因为过慢的速度,还是timeout。真是无法忍受。那么看一下是否可以另辟蹊径呢?当然,如果可以人肉FQ也是可以的,不过大多同学可能没有这个条件...原创 2020-07-15 23:47:43 · 2250 阅读 · 2 评论 -
Kaldi aishell 200h小时训练问题集合
Kaldi aishell位置: ${Kaldi}/egs/aishell/s5数据集下载问题数据集**data_aishell.tgz**在openslr上,该数据集比较大,总共15G。国内网络情况下下载比较慢,估计一个月都下不下来。默认的run.sh里写的是www.openslr.org/resources/33,需要改为国内站点,http://openslr.magicdatatech.com/33。这样效果应该好一点。网速好的话一天应该可以下完。在国内有没有更快的方法?有的。如果你有原创 2020-09-28 17:23:23 · 1307 阅读 · 0 评论 -
【Kaldi安装问题】Nvidia库cub安下载失败
请注意文件的时效性在安装kaldi时,tools下的安装如果遇到如下错误,说明在安装cub时,该包下载不了。不知道什么原因,github.com的地址好像被封了。【解决方案】github下不了,我们就换个地方下载。找了一下该cub包官方的download地址。https://nvlabs.github.io/cub/找到下载链接,直接下载即可。如果该网站访问不了,或者不能下载,那么请在这里下载吧下载完成后,把该包放到tools文件夹下,然后编译Makefile文件,需要把下载cub.原创 2020-07-16 15:46:27 · 2689 阅读 · 4 评论 -
半环(semiring)的数学概念
相关概念交换群(An abelian group/commutative group)交换群是一个集合(Set),它有一个运算符·,对于集合A,则可以表示为(A,·)它有如下特性:闭包性(Closure)如果a,b属于A,那么a·b属于A结合性(Associativity)如果a,b,c属于A,那么(a·b)·c=a·(b·c)含有幺元(Identity element)存在元素e,对于A中元素a,满足e·a=a·e=a含有逆元(Inverse element)对于元素a,在A中存在原创 2020-10-14 20:36:09 · 6681 阅读 · 0 评论 -
【记录】batch_size对cnn训练的影响
在其他参数基本一致的情况下,单独调整batchsize,来查看一下对训练的影响.记录下不同batch_size情况下在Epoch下loss的变化率训练模型下面是一个训练模型的summary,我将在此模型下修改batch size然后观察数据变化batch_size不同的batch_size会导致不同的收敛速度和每一个epoch的训练时长下图是batch_size=64的训练截图数据结果针对不同的batch size,做epoch10次训练下的数据统计,数据如下:batch越小,每一原创 2021-06-05 15:31:00 · 869 阅读 · 0 评论 -
【字节流处理】linux下uint8转float的注意事项
在处理音频媒体流数据时,如果需要将整体的数据流转为float型的,可能会有一些问题主要注意。注: 本文所讨论的范围都在Linux环境下Big Endian or Little Endian如果一个sample的数据超过一个字节,那么存储它就存在了排列顺序的问题。首先看Big Endian和Little Endian的定义Little-Endian就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端Big-Endian就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端原创 2021-03-10 15:16:45 · 1050 阅读 · 0 评论 -
【Timbre,Amplitude,Pitch】声音的基本属性
音色TimberTimbre是音色的意思,那什么是音色?我们知道每一种乐器都有不同的音色,音色是可以用来辨识乐器。那我们是如何听出音色的呢?先说结论,声音的波形决定了音色这里有个连接,可以在线听4中波形播放不同的波形的波,我们明显的感受到了不同感觉。这种感觉,就是音色(Timbre)振幅Amplitude振幅表示波在传播过程中震动的幅度,它在一定程度上反应了音量。那是不是我们常说的分贝就是它呢? 当然不是。准备来说,分贝是一个比值,它反馈的是两种压力之比。分贝使用在声音里反应原创 2021-01-31 16:47:05 · 931 阅读 · 0 评论