- 博客(14)
- 收藏
- 关注
原创 解决国内无法连接Hugging face,无法下载预训练模型
由于使用服务器无法连接到hugging face,导致需要的预训练模型下载不下来。知道使用镜像网站,但每次用完就忘记了怎么使用了。对我来说,没有起到作用。在虚拟环境的 “../huggingface_hub”中找到:constants.py文件。重新运行程序就可以正常下载预训练模型了。
2024-07-11 11:54:17
13941
22
原创 波士顿房价数据集.csv(校正版)
最近因为教学需要波士顿房价数据集(开源),网上找到了原数据集,但是下载后是txt版本的。在博主“Zhiwei_Luo”的博文中。在实际使用过程中,发现报错有缺失值,检查后发现博主提供的数据有部分缺失了。现在提供完整的.csv数据集和.txt数据集给大家。
2023-03-21 13:17:08
10110
2
原创 anaconda安装后显示’conda’ 不是内部或外部命令,也不是可运行的程序的解决办法(血泪教训)
相关博客说是win11的问题,只能安装anaconda 4.4.0以下版本,不然会出现文件丢失问题。再我即将去换版本时,尝试性的重新安装了一次,结果发现系统提示安装路径不能有空格!我尝试更换安装路径后,问题解决了!网上大部分解决办法是配置环境变量,但我发现我的path中是包含所需的环境变量的,所以明显不是这个问题。在经过一系列查找,重装后发现我的Scripts中没有conda.exe文件。所以无论怎么配置路径都肯定不能运行!我的系统是win11,安装的是清华镜像源下载的Anaconda3 5.3.1版本。
2022-11-14 22:37:59
1847
原创 kaldi中的深度神经网络
d.)(nnet3 + chain) - Daniel Povey 改进的 nnet3, 特点:可以实现实时解码,解码速率为 nnet3 的 3~5 倍。b) nnet2 - 基于 Daniel Povey p-norm 的实现,特点:灵活,支持多 GPU、CPU,由 Daniel 维护。a) nnet1 - 基于 Karel's 的实现,特点:简单,仅支持单 GPU, 由 Karel 维护。c) nnet3 - nnet2 的改进,由 Daniel 维护。
2022-09-14 22:58:02
374
原创 Kaldi中DNN的实现
在 kaldi 训练过程中,DNN 的训练是主要是依赖于 GMM-HMM 模型的,通过 GMM-HMM 模型得到 DNN 声学模型的输出结果(在 get_egs.sh 脚本中可以看到这一过程)。因此训练一个好的 GMM-HMM 模型是 kaldi 语音识别的关键。所以在run.sh中可以看到,GMM-HMM 训练了 5 次,得到一个相对比较不错的模型,然后训练 nnet3 模型以及 chain 模型,最后测试精度。以下是run_tdnn.sh的代码。
2022-09-14 22:38:03
978
原创 week7——语言模型
(RNN语言模型很好,可以对很长的上下文关系进行建模。但是它在语音识别中不常用。因为用RNN语言模型的话,解码出每一个词都得现算语言模型分数,效率不高。它一般用在二次解码rescore中。N-gram可以编译成加权有限状态转换器,可以看成一种有向图。这样解码就变成了在图中搜索的过程,比较高效。所以语音识别一般用的还是N-gram)语言模型如何配合声学模型来提高整个识别结果?这就是解码器所做的事情。...
2022-08-30 21:04:37
455
原创 week6——DNN-HMM模型
需要注意,输入层是没有w参数的。再来看看偏倚b的定义。还是以这个三层的DNN为例,第二层的第3个神经元对应的偏倚定义为。其中,上标2代表所在的层数,下标3代表偏倚所在的神经元的索引。输出层是没有偏倚参数b的。同样的道理,对于神经元的激活值而言,第3层的第1个神经元的激活值应该表示。...
2022-08-30 18:55:18
1102
原创 语音识别入门课——week5(GMM-HMM)
每个状态都有一个对应的GMM,每个词又有对应的HMM,给出一段未知序列的时侯,就会在HMM上计算一下观测概率、转移概率,也就是做一个Viterbi算法,计算一个序列在HMM-GMM上的概率。就是将孤立词里面的词3状态,转变为每个因素3状态,做一个HMM的平滑连接,相当于一个9状态的HMM,再去使用Viterbi训练或者前向后向训练。词(语音)是一个序列,P_w(X)可以用HMM的概率问题来进行描述,并且语音经过MFCC特征提取后也会变成连续概率密度分布。词 --> 音素序列,3状态变成拼接的多状态。
2022-08-24 19:36:28
1254
原创 语音识别入门课——week4(隐马尔可夫模型HMM)
随机过程:是依赖于参数的一组随机变量的全体,参数通常是时间。随机变量是随机现象的数量表现,其取值随着偶然因素的影响而改变。例如,某商店在从时间t0到时间tK这段时间内接待顾客的人数,就是依赖于时间t的一组随机变量,即随机过程。
2022-08-24 19:14:10
797
原创 WEEK-3 实战作业
本次实验所用的数据为0-9(其中0的标签为Z(Zero))和o这11个字符的英文录音,每个录音的原始录音文件和39维的MFCC特征都已经提供,实验中,每个字符用一个GMM来建模,在测试阶段,对于某句话,对数似然最大的模型对应的字符为当前语音数据的预测的标签(target)text,句子id到标签的映射,本实验中标签(语音对应的文本)只能是0-9,o这11个字符。wav.scp,句子id到wav的路径的映射,所用到的数据wav文件的相对路径。......
2022-07-19 15:57:54
287
原创 Week-3 GMM和EM算法
用EM算法来估计高斯混合模型的参数,在这里参数θ=(α1,α2,...,αk;在这里观测数据是已知的,而观测数据具体来自哪个模型是未知的(这就和之前提过的三硬币模型是很相似的,知道模型被选择的概率就好比知道选择B,C硬币的概率,但是却不知道本次预测的结果是由B得出的还是C得出的)对于高斯模型的应用大致是先随机在这K个模型中任选一个模型(αk是第k个模型被选中的概率,注意在这里的混合模型和集成学习中的模型是不一样的,这里实际应用的只是混合模型中的一个),然后再用这个模型进行预测。.........
2022-07-14 19:49:50
413
原创 实战一:给定一段音频,请提取12维MFCC特征,阅读代码预加重、分帧、加窗部分,完善作业代码中fbank和mfcc部分,并给出最终的Fbank和MFCC特征,用默认的配置参数,无需进行修改
代码依赖如果需要观察特征频谱,请确保自己有matplotlib依赖并将代码中相关注解解掉注:不要修改文件默认输出test.fbank test.mfcc的文件名 二、实战代码
2022-07-08 19:57:46
380
3
原创 语音识别入门课——week2
离散信号中的定义x(t) = sin(2πf0t)其中f0表示信号本身的频率,单位为Hz如果我们对此正弦波进行采样,每隔ts秒进行一次采样,并使用一定范围的离散数值表示采样值,则可以得到采样后的离散信号。x(n) = sin(2πf0nts)其中 ts为采样周期; fs = 1/ts,为采样频率,或采样率,表示1s内采样的 点数, ts 为采样周期; n = 0,1, … … 为离散整数序列问题:如果给定一个正弦波采样后的序列,如(b), 可以唯一的恢复出一个连续的正弦波吗?结论:如上所示原始信号频率是f0
2022-07-08 19:43:12
683
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人