kaldi的prepare_data.sh模块解读

本文主要探讨了kaldi项目中用于数据预处理的prepare_data.sh脚本,适合初学者了解其工作原理和使用方法。尽管可能存在不足之处,欢迎读者指正和补充。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#!/bin/bash
#
# Copyright  2017  Johns Hopkins University (Author: Shinji Watanabe, Yenda Trmal)
# Apache 2.0

# Begin configuration section.
mictype=worn # worn, ref or others
cleanup=true
# End configuration section
. ./utils/parse_options.sh  # accept options.. you can run this run.sh with the

. ./path.sh

echo >&2 "$0" "$@"
if [ $# -ne 3 ] ; then ##核对输入参数的数量是否准确
  echo >&2 "$0" "$@"
  echo >&2 "$0: Error: wrong number of arguments"
  echo -e >&2 "Usage:\n  $0 [opts] <audio-dir> <json-transcript-dir> <output-dir>"
  echo -e >&2 "eg:\n  $0 /corpora/chime5/audio/train /corpora/chime5/transcriptions/train data/train"
  exit 1
fi
## set -e表示一旦脚本中有命令的返回值为非0,则脚本立即退出,后续命令不再执行;
## set -o pipefail表示在管道连接的命令序列中,只要有任何一个命令返回非0值,则整个管道返回非0值,即使最后一个命令返回0.
set -e -o pipefail

##adir是语音目录,jdir是标注文件所在目录,dir是输出目录
adir=$1
jdir=$2
dir=$3

json_count=$(find -L $jdir -name "*.json" | wc -l) ##此处是标注数据的数量统计
wav_count=$(find -L $adir -name "*.wav" | wc -l) ##此处是语音数据的数量统计

if [ "$json_count" -eq 0 ]; then
  echo >&2 "We expect that the directory $jdir will contain json file
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值