智能语音_安安爸Chris的博客-优快云博客

智能语音

关注

文章平均质量分 62

智能语音

关注数：文章数：15 文章阅读量：31628 文章收藏量：58

作者: 安安爸Chris

这个博客用于写自己兴趣所在的内容，主要是源码阅读和智能语音相关的。我另一个博客主要写工作相关的，请参考https://www.jianshu.com/u/3f1c3f228fa5

展开

专栏收录文章

什么是CMU Pronoucing Dictionary(CMU发音词典)

CMUdictCMU Pronoucing Dictionary一般会简写为CMUdict，CMU的含义是Carnegie Mellon University（卡耐基梅隆大学）的缩写。CMUdict的第一个版本是卡耐基梅隆大学在1993年发布的，在其0.7a版本后，2008年后采用了BSD license。Phoneme Set 音素集合一共有39个基本音素（未包含变种）PhoneExampleTranslationAAoddAA DAEatAE TAHh

原创 2021-12-26 11:43:32 · 5794 阅读 · 0 评论
编译phonetisaurus时configure找不到openfst的问题解决

PhonetisaurusPhonetisaurus是用于做g2p(grapheme to phoneme)的工具，它的源码地址在这里。编译它的编译依赖openfst，在编译openfst时，如果不指定构建路径在系统路径下，生成的include和lib可能就无法被直接引用到。所以在编译Phonetisaurus时，特别是在configure步骤，会提示依赖的openfst找不到。checking for openfst libraries... configure: error: Can't fi

原创 2021-12-26 00:51:43 · 550 阅读 · 0 评论
【matlab】meshgrid的使用

函数参数列表[X,Y] = meshgrid(x,y)[X,Y] = meshgrid(x)[X,Y,Z] = meshgrid(x,y,z)[X,Y,Z] = meshgrid(x)meshgrid可以生成2D或者3D的矩阵，如果为2D，矩阵的shape为（y.length, x.length）如果为3D，矩阵的shape为（y.length, x.length,z.length）代码示例sample1x=1:2; %length 2y=3:5; %length 3[X,Y]=m

原创 2021-03-17 11:26:31 · 807 阅读 · 0 评论
听歌识曲原理探究以及样例代码

技术故事听歌识曲是一个很成熟的技术。现在的主流音乐播放器，几乎都有这个功能。但是第一个吃螃蟹的是上个世纪末的一个叫**“Shazam Entertainment Limited”**的公司，后来该公司在2018年被Apple以4亿美金收购了。上图是ShazomApp，用于Identitying the songs playing around you.算法实现算法的实现基于论文 An Industrial-Strength Audio Search AlgorithmConstellat

原创 2021-07-11 17:42:37 · 4082 阅读 · 4 评论
【k-means clustering】【一】基础算法

算法描述输入样本集： X={x1,x2,...xn}X=\{x_1, x_2,... x_n\}X={x1,x2,...xn}聚类簇数K输出划分 C={c1,c2,...ck}C=\{c_1, c_2, ... c_k\}C={c1,c2,...ck}最大迭代次数N从数据集X中随机选择k个数据作为初始k个质心(centroids) {μ1,μ2,...μk}\{\mu_1, \mu_2,... \mu_k\}{μ1,μ2,...μk}对于n=1,2,…N,a) 将C初始化

原创 2021-02-28 11:16:24 · 300 阅读 · 0 评论
【Kaidi安装问题】install_mkl.sh报错，没有数字签名

问题执行install_mkl.sh时报如下错误：由于没有公钥，无法验证下列签名: NO_PUBKEY FCAE110B1118213C问题根因实际上该问题跟安装Kaldi没有关系。因为系统（Ubuntu 16.04）长时间没有更新，有些ppa的密钥系统中不存在。解决方案在控制台里执行如下操作gpg --keyserver keyserver.ubuntu.com --recv FCAE110B1118213C# 注意：FCAE110B1118213C是我当前不存在的key，你要换成你自

原创 2020-07-14 10:53:18 · 643 阅读 · 0 评论
【openfst样例2】Downcasing Text

Execise Data files样例中需要的数据来源：http://www.openfst.org/twiki/bin/view/FST/FstExamples如果无法访问，可以在这里下载Execise 2 Downcasing Text该例子将输入转为小写字母首先，需要一份字母转换的fst.full_downcase.fst0 0 <space> <space>0 0 ! !0 0 " "0 0 # #0 0 $ $0 0 % %0 0 &

原创 2020-10-12 20:26:11 · 301 阅读 · 0 评论
【openfst样例1】Tokenization

Execise Data files样例中需要的数据来源：http://www.openfst.org/twiki/bin/view/FST/FstExamples如果无法访问，可以在这里下载Execise 1 Tokenization第一个示例将ASCII字符序列转换为带有标点符号和去除空格的单词标记序列。为此，我们将需要一个词典换能器，该词典换能器将从字母映射到其对应的单词标记。一种简单的生成方式是使用OpenFst文本格式。例如，“Mars”一词的格式为：fstcompile --i

原创 2020-10-10 23:58:05 · 2023 阅读 · 1 评论
【Kaidi安装问题】下载mkl过慢

执行install_mkl.sh时会下载mkl，但是国内速度过于慢，而且因为过慢的速度，还是timeout。真是无法忍受。那么看一下是否可以另辟蹊径呢？当然，如果可以人肉FQ也是可以的，不过大多同学可能没有这个条件...

原创 2020-07-15 23:47:43 · 2494 阅读 · 2 评论
Kaldi aishell 200h小时训练问题集合

Kaldi aishell位置： ${Kaldi}/egs/aishell/s5数据集下载问题数据集**data_aishell.tgz**在openslr上，该数据集比较大，总共15G。国内网络情况下下载比较慢，估计一个月都下不下来。默认的run.sh里写的是www.openslr.org/resources/33，需要改为国内站点，http://openslr.magicdatatech.com/33。这样效果应该好一点。网速好的话一天应该可以下完。在国内有没有更快的方法？有的。如果你有

原创 2020-09-28 17:23:23 · 1454 阅读 · 0 评论
【Kaldi安装问题】Nvidia库cub安下载失败

请注意文件的时效性在安装kaldi时，tools下的安装如果遇到如下错误，说明在安装cub时，该包下载不了。不知道什么原因，github.com的地址好像被封了。【解决方案】github下不了，我们就换个地方下载。找了一下该cub包官方的download地址。https://nvlabs.github.io/cub/找到下载链接，直接下载即可。如果该网站访问不了，或者不能下载，那么请在这里下载吧下载完成后，把该包放到tools文件夹下，然后编译Makefile文件，需要把下载cub.

原创 2020-07-16 15:46:27 · 2848 阅读 · 4 评论
半环(semiring)的数学概念

相关概念交换群（An abelian group/commutative group）交换群是一个集合（Set），它有一个运算符·，对于集合A，则可以表示为(A,·)它有如下特性：闭包性（Closure）如果a,b属于A，那么a·b属于A结合性（Associativity）如果a,b,c属于A，那么(a·b)·c=a·(b·c)含有幺元（Identity element）存在元素e，对于A中元素a，满足e·a=a·e=a含有逆元（Inverse element）对于元素a，在A中存在

原创 2020-10-14 20:36:09 · 7158 阅读 · 0 评论
【记录】batch_size对cnn训练的影响

在其他参数基本一致的情况下，单独调整batchsize，来查看一下对训练的影响.记录下不同batch_size情况下在Epoch下loss的变化率训练模型下面是一个训练模型的summary，我将在此模型下修改batch size然后观察数据变化batch_size不同的batch_size会导致不同的收敛速度和每一个epoch的训练时长下图是batch_size=64的训练截图数据结果针对不同的batch size，做epoch10次训练下的数据统计，数据如下：batch越小，每一

原创 2021-06-05 15:31:00 · 922 阅读 · 0 评论
【字节流处理】linux下uint8转float的注意事项

在处理音频媒体流数据时，如果需要将整体的数据流转为float型的，可能会有一些问题主要注意。注：本文所讨论的范围都在Linux环境下Big Endian or Little Endian如果一个sample的数据超过一个字节，那么存储它就存在了排列顺序的问题。首先看Big Endian和Little Endian的定义Little-Endian就是低位字节排放在内存的低地址端，高位字节排放在内存的高地址端Big-Endian就是高位字节排放在内存的低地址端，低位字节排放在内存的高地址端

原创 2021-03-10 15:16:45 · 1178 阅读 · 0 评论
【Timbre,Amplitude,Pitch】声音的基本属性

音色TimberTimbre是音色的意思，那什么是音色？我们知道每一种乐器都有不同的音色，音色是可以用来辨识乐器。那我们是如何听出音色的呢？先说结论,声音的波形决定了音色这里有个连接，可以在线听4中波形播放不同的波形的波，我们明显的感受到了不同感觉。这种感觉，就是音色（Timbre）振幅Amplitude振幅表示波在传播过程中震动的幅度，它在一定程度上反应了音量。那是不是我们常说的分贝就是它呢？当然不是。准备来说，分贝是一个比值，它反馈的是两种压力之比。分贝使用在声音里反应

原创 2021-01-31 16:47:05 · 1076 阅读 · 0 评论

智能语音

作者: 安安爸Chris

什么是CMU Pronoucing Dictionary(CMU发音词典)

编译phonetisaurus时configure找不到openfst的问题解决

【matlab】meshgrid的使用

听歌识曲原理探究以及样例代码

【k-means clustering】【一】基础算法

【Kaidi安装问题】install_mkl.sh报错，没有数字签名

【openfst样例2】Downcasing Text

【openfst样例1】Tokenization

【Kaidi安装问题】下载mkl过慢

Kaldi aishell 200h小时训练问题集合

【Kaldi安装问题】Nvidia库cub安下载失败

半环(semiring)的数学概念

【记录】batch_size对cnn训练的影响

【字节流处理】linux下uint8转float的注意事项

【Timbre,Amplitude,Pitch】声音的基本属性