说话人识别中的VAD

Kaldi中说话人识别的VAD算法解析

最新推荐文章于 2025-07-29 14:45:43 发布

阿拉蕾二

最新推荐文章于 2025-07-29 14:45:43 发布

阅读量587

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_44906416/article/details/89417723

本文详细解析了Kaldi中用于说话人识别的Voice Activity Detection (VAD)算法，主要关注如何通过VAD区分语音和背景噪音，以构建UBM模型。源码分析包括能量阈值设定、比例阈值判断等关键步骤，并提供了一个实际的计算过程示例。

本文根据kaldi中的vad的算法 kaldi/src/ivector/voice-activity-detection.cc以及网上的一些资源来总结一下这个知识点。

首先VAD的全称是：Voice Activity Detection （语音激活检测），能够区分传输语音信号中的语音信号和背景噪音，当然还能在通信中区分语音和静默段能够区分传输语音信号中的语音信号和背景噪音，

避免带宽资源的浪费，这里我们只讨论在说话人识别中需要区分背景噪音来构建UBM模型。

下面直接看kaldi的源码，注意看注释

run.sh中调用下面computer_vad_decision.sh

Usage: $0 [options] <data-dir> <log-dir> <path-to-vad-dir>

[plain] view plain copy

sid/compute_vad_decision.sh --nj 40 --cmd "$train_cmd" \
data/train exp/make_vad $vaddir

在 computer_vad_decision.sh调用的是

Usage: compute-vad [options] <feats-rspecifier> <vad-wspecifier>

输入的是每一个feats文件，由于上边的nj是40，所以这JOB： 1～40，输入mfcc.ark 输出vad.ark

compute-vad --config=$vad_config scp:$sdata/JOB/feats.scp ark,scp:$vaddir/vad_${name}.JOB.ark,$vaddir/vad_${name}.JOB.scp

computer-vad是 kaldi/src/ivectorbin/compute-vad.cc

下面是 computer-vad.cc中的逻辑：

[cpp] view plain copy

for (;!feat_reader.Done(); feat_reader.Next()) {

[cpp] view plain copy

＃读取每一句话
std::string utt = feat_reader.Key();
Matrix<BaseFloat> feat(feat_reader.Value());
if (feat.NumRows() == 0) {
KALDI_WARN << "Empty feature matrix for utterance " << utt;
num_err++;
continue;
}

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。