Xvector in Kaldi nnet3

最新推荐文章于 2024-05-05 19:05:04 发布

转载最新推荐文章于 2024-05-05 19:05:04 发布 · 420 阅读

1 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/JarvanWang/p/10183576.html

本文详细介绍了Xvectornnet在Kaldi语音识别框架中的训练过程及其实现细节，包括StatisticsExtractionLayer和StatisticsPoolingLayer的具体应用，以及如何通过特定的计算请求构造来优化Xvector的计算流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Xvector nnet

Training of Xvector nnet

Xvector nnet in Kaldi

Statistics Extraction Layer in Kaldi

Statistics Pooling Layer in Kaldi

Implementation in Kaldi

Construct specific ComputationRequest for Xvector

kaldi::nnet3::RunNnetComputation at nnet3bin/nnet3-xvector-compute.cc

44 output_spec.indexes.resize(1);

Rather than

kaldi::nnet3::DecodableNnetSimple::DoNnetComputation at nnet3/nnet-am-decodable-simple.cc

244 output_spec.indexes.resize(num_subsampled_frames);

Compile ComputationRequest, get NnetComputation

std::shared_ptr<const NnetComputation> computation = compiler_.Compile(request);

From output to input, build dependency once a layer

BuildGraphOneIter();

For each Cindex，add dependency

AddDependencies(cindex_id);

For Statistics*Component

component->GetInputIndexe(...);

Organize Data and Computation as a group of Cindexes, called step.

Optimize Computation

For each step Run NnetComputer:

kPropagate: component->Propagate(...)

kBackprop: component->Backprop(...)

Get output from NnetComputer:

computer.GetOutputDestructive("output", &cu_output);

转载于:https://www.cnblogs.com/JarvanWang/p/10183576.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30408739

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

kaldi中的xvector训练(aisell v1)

weixin_43056919的博客

03-08

4713

作一个记录。总说明文档（kaldi团队官方） https://david-ryan-snyder.github.io/2017/10/04/model_sre16_v2.html github地址 https://github.com/kaldi-asr/kaldi/pull/1896/ 网络结构是基于18年的这篇论文的 X-VECTORS: ROBUST DNN EMBEDDINGS FOR ...

【kaldi】声纹识别之X-vector

热门推荐

初级菜鸟

12-29

1万+

一．搞了几天，首先说一下X-vector的优势： 1.训练速度非常快 2.无需特定语种的训练集，由于设置一个embedding层进行提取特征直接进行plda打分 3.识别率不错二．Kaldi中有现成的例子，可供研究 https://github.com/kaldi-asr/kaldi/tree/master/egs/sre16/v2 https://github.com/kaldi-...

参与评论您还未登录，请先登录后发表或查看评论

ivector-xvector：在kaldi下提取xvector和ivector

02-05

Kaldi用于ivector和xvector的摘要文件清单 ivector/ conf/ ：为mfcc和vad配置文件 wav/ ：测试音频（您也可以使用自己的wav路径，请参阅步骤1 ）仅支持flac（安装flac），wav和sph（安装sph2pipe） model_3000h/ ：预训练模型 enroll.sh ：主进程enroll.sh data/ ：保存提取的特征（已生成文件） utt2spk, wav.scp通过make_data.py生成两个文件 spk2utt ：从utt2spk生成 log/ ：保存所有日志 tmp/ ：保存所有tmp文件 xvector/ c

nnet3bin/nnet3-xvector-compute.cc

weixin_30877181的博客

12-19

284

将特征在xvector神经网络模型中前向传播，并写出输出向量。我们将说话人识别的特定神经网络结构的输出向量或embedding称之为"Xvector"。该网络结构包括：帧级别的多个前馈层、帧级别之上的聚合层、统计池化层以及段级别的附加层。通常在统计池化层之后的输出层提取xvector。默认情况下，每个语句生成一个xvector。根据需要，可以chunk中提取多个xvector并求平均，以生成单个矢...

x-vector

Sakura-wyy的博客

10-29

2594

对于TDNN，假如要处理时序上15帧的上下文的特征表达，在初始层中，会处理比15帧更加窄的时序上下文，然后送入更深的网络。对这T个向量计算均值和方差（因为每个1500维向量都是从一个15帧的数据提取的，这样能够集合不同时间上的信息），将均值和方差合并起来，则得到一个2*1500=3000维的向量。从上图可看出，每一层的输出中，相邻时间步有很大的context重叠，在进行特征拼接输入下一层时不必拼接紧挨着的时间步，可以隔几个时间步进行拼接。上图中，第一层的时间分辨率为5，最上层的时间分辨率为23。

使用kaldi中的x-vector在aishell数据库上建立说话人识别系统

qq_27182145的博客

11-04

3693

使用kaldi中的x-vector在aishell数据库上建立说话人识别系统写在前面整个系统可以分为三个部分，第一，前端预处理部分，主要包括mfcc特征提取，VAD，数据扩充（增加混响、增加不同类型的噪声）等；第二，基于TDNN的特征提取器，该结构生成说话人表征，说话人表征也可以被称为embedding、x-vector；第三，后端处理，对于说话人表征，采用LDA进行降维并训练PLDA模型对测试对进行打分。 x-vector的论文发表在ICASSP 2018，kaldi的核心开发者Daniel Pove

kaldi 声纹识别系统（2）代码解读：基于x-vector

Robin_Pi的博客

01-18

2023

Kaldi 脚本0. 预备知识：常用术语0.1 文件0.2 脚本名称和文件夹名run.pl1. 前端提取1.1 流控制脚本1.2 具体执行的脚本1.3 中间量2. 后端识别2.1 流程控制脚本plda-scoring.sh2.2 具体执行的脚本ivector-compute-pldaivector-plda-scoring计算对数似然比（LLR）主要用来明确kaldi声纹识别的具体流程，以及各个脚本背后源码的思路。 0. 预备知识：常用术语 0.1 文件 .ark：archive，记录实际数据的表格（t

kaldi声纹识别

最新发布

04-01

local/nnet3/xvector/get_egs.sh --cmd "${train_cmd}" --frames-per-eg 800 data/train_cleaned egs fi # Step 3: Train TDNN model with specified topology settings. steps/nnet3/xvec/train_tdnn.sh --stage ...

Kaldi 使用，egs下通用样例及功能小结（很硬，慎入）

c12345678999的博客

05-29

4025

样例表 egs下的样例数据源，功能用到的相关工具 aidatatang_200zh/s5 数据堂200h中文开源数据，用于语音识别 LM+MFCC+Mono+Triphone(tri1:deltas;tri2:delta+delta-delta;tri3a:lda+mllt)+fMLLR+SAT+TDNN aishell/v1 openslr33数据，声纹识别(ivector) MFCC+UBM+PLDA aishell/s5 openslr33数据，语音识别 LM+MFCC

kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 kaldi/egs/voxceleb/v2 X-vector

11-23

4. 模型评估：使用sid/nnet3/xvector/extract_xvectors.sh脚本提取测试集的X-vector表示，并使用sid/nnet3/xvector/score.sh脚本计算说话人之间的相似度得分。该脚本使用了PLDA（Probabilistic Linear Discriminant ...

VBDiarization:基于Kaldi x-vector的扬声器二值化，针对16k麦克风数据进行了调整

05-09

vbdiar 该项目已弃用，并移至，该项目可获得更好的结果。使用在Kaldi（）中训练的预训练模型，基于x向量的说话人二分位数，并转换为在ONNXRuntime（）中运行的ONNX格式（））。使用VoxCeleb1和VoxCeleb2 16k数据（）训练了X向量模型。如果您使用代码或模型，请引用以下内容： : 依存关系依赖关系列在requirements.txt 。安装建议使用anaconda环境。运行python setup.py install同样，由于我们使用的是Kaldi，因此必须在vbdiar/kaldi/__init__.py设置Kaldi根目录的路径。设定档配置文件声明使用的模型和它们的路径。示例配置文件是configs/vbdiar.yml 。楷模预训练的模型存储在models/目录中。例子示例脚本examples

声纹识别之xvector

NonDay的博客

04-21

8257

TDNN 时延神经网络（TDNN）来自1989年的论文《Phoneme recognition using time-delay neural networks》。原文中主要使用TDNN来识别音素，在识别"B", "D", "G"三个浊音中得到98.5%的准确率，高于HMM的93.7%。普通神经网络识别音素在讲TDNN之前先说说一般的神经网络的是怎样识别音素的吧。假设要识别三个辅音"B"...

语音辨识中的 X-vector

chumingqian的博客

05-05

1815

语音识别中Xvector是什么?在语音识别领域，X-vector是一种用于表示说话人的声音特征的技术。X-vector通常用于说话人识别任务，其目的是从短时语音记录中提取一个固定长度的特征向量，这个向量能够有效地表示说话人的身份信息。X-vector技术涉及使用深度神经网络（DNN）学习说话人的声音特征。：首先从语音中提取基本的声学特征，如梅尔频率倒谱系数（MFCCs）。：使用这些声学特征训练一个深度神经网络。网络的目的是学习如何从特征中区分不同的说话人。

声纹识别X-Vector

06-09

4549

声纹识别X-Vector 草祭收录于编程-ღ-技术 2020-01-02 约 2646 字预计阅读 6 分钟次阅读目录背景声纹识别上x-vector被作为很多赛事的baseline使用，包括aishell2018、ASVspoof2019。介绍x-vector的文章主要有[1] [2]两篇，[1]介绍x-vector的整体和细节部分，[2]对实验进行了补充分析。 Prerequisites： TDNN，embedding。核心思路将系统分成两个部分： Em...

文献阅读：X-VECTOR--用于说话人识别的鲁棒深度神经网络嵌入

Tristespirit的博客

04-18

2606

论文论文：X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION 摘要被训练用于区分说话人的深度神经网络把可变长的话语映射为固定维度的embedding，也我们叫它x-vector。先前的研究发现这种embedding在利用大规模的训练数据集后性能优于了i-vector，但是搜集大量高质量的标记的训练数据是一个挑战，所以我们使用包含增加噪声和混响的数据增强来作为一种价格低廉的增加训练数据数量和提升鲁棒性的方法。x-vector在数据集WI

x-vector(X-Vectors:Robust DNN embeddings For Speaker Recognition)

qq_41048571的博客

08-01

757

实现流程：使用了TDNN架构。橘黄色竖条表示mfcc帧，其维度为24，statistics pooling层以下的帧数是根据mfcc实际帧数计算得到。根据frame1-3的input x output中的output可知：深蓝色竖条维数为512，浅黄色竖条维数为512，淡蓝色竖条维数为512 frame1：输入端5条直线分别连接5帧，5*24=120，所以input x output=120 x 512； context=5表示一个深蓝色竖条对应5个橘黄色竖条；每一次stride=1，表示红色

深入理解TDNN（Time Delay Neural Network）——兼谈x-vector网络结构

DEDSEC_Roger的博客

01-01

1万+

TDNN（Time Delay Neural Network，时延神经网络）是用于处理序列数据的，比如：一段语音、一段文本将TDNN和统计池化（Statistics Pooling）结合起来，正如x-vector的网络结构，可以处理任意长度的序列TDNN出自x-vector出自。

语言处理之 xvector

HeroIsUseless的博客

04-16

1181

厦门大学智能语音实验室(XMUSPEECH)提供了基于Kaldi和Pytorch两个开源平台的基线系统：基于Kaldi的i-vector系统和x-vector系统，基于Pytorch的x-vector系统。厦门大学智能语音实验室同时开源了ASV-Subtools工具，ASV-Subtools工具相比于其他开源工具的优势在于其整合了Pytorch的训练和Kaldi的前端后端处理，可用于声纹识别系统的搭建。 1、先将数据采样率降到16k 写了一个脚本，可以了 2、准备要提取数据的wav.scp

X-vector系列论文 | X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION

wgc7998的博客

12-23

2857

以下是摘要部分：在本文中，使用数据增广来提高深度神经网络（DNN）embedding对于说话人识别的性能。经过训练以区分说话者的DNN将可变长度的语料映射到我们称为x-vector的固定维度embedding。之前的研究发现，embedding比i-vector更好地利用大规模训练数据集。然而，收集大量用于训练的标记数据可能具有挑战性，因此使用数据增广，包括增加噪声和混响，作为一种廉价的方法来...