Tacotron2 NVIDIA版本优化停顿问题之Biao-Bei数据PhonePrssCrystal

最新推荐文章于 2023-08-29 10:52:31 发布

ruclion

最新推荐文章于 2023-08-29 10:52:31 发布

阅读量1k

点赞数 1

分类专栏：研二-语音合成研二-Maybe 文章标签：语音合成英伟达T2

本文链接：https://blog.youkuaiyun.com/u013625492/article/details/102593656

版权

尚未补充完整!!!
预处理数据
- bash脚本
改代码
启动docker
训练
合成
- - - 模型1
    - 模型2
    - 模型3
    - 模型4
第一次实验失败--更正
loss下精训 (下一课题)
- 发现PhonePrssCrystal loss大
继续训练
- 完全恢复
执行代码(较好版本)
用subset_1续上
跑 LJS WaveGlow
其他
- 汉语转拼音
- tf.py_func和shape

尚未补充完整!!!

预处理数据

bash脚本

'/r’错误

sed -i 's/\r$//' filename
整个文件夹
for i in *;do if [[ -f $i ]]; then sed

仿LJS预处理

下载, 解压, 重采样, 调用py制作XXX|abc文件.

#!/usr/bin/env bash

set -e

DATADIR="Biao-Bei"
RARARCHIVE="BZNSYP.rar"
ENDPOINT="https://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwYinPinKu/BZNSYP.rar"

if [ ! -d "$DATADIR" ]; then
  echo "dataset is missing, solving ..."
  if [ ! -f "$BZ2ARCHIVE" ]; then
    echo "no source!! ..."
    wget "$ENDPOINT"
  fi
  if [ ! -d "Wave" ]; then
    echo "dataset is missing, unpacking ..."
    rar x "$RARARCHIVE"
  fi
  mkdir -p "$DATADIR"
  mv  "Wave" "$DATADIR"
  mv  "ProsodyLabeling" "$DATADIR"
  mv  "PhoneLabeling" "$DATADIR"
  cd "$DATADIR/Wave"
  echo pwd
  for x in ./*.wav
  do
    b=${x##*/}
    sox $b -r 22050 tmp_$b
    rm -rf $b
    mv tmp_$b $b
  done
  cd ..
  cd ..
  python scripts/__Biao-Bei_prepare_dataset.py
fi

提取mel

改代码

启动docker

NV_GPU='7' nvidia-docker run --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 -it --rm --ipc=host -v $PWD:/workspace/tacotron2/ tacotron2 bash

sed -i 's/\r$//' filename

bash

或者是:

CUDA_VISIBLE_DEVICES="0,1"  bash scripts/docker/interactive.sh

训练

只训练一条数据:
bash trian

合成

模型1

借用好像是多核训练Biao-Bei pinyin 的waveGlow, (记得好像是多核训练的, 不是太好), 不热身.

python inference.py --tacotron2 oneCore_Biao-Bei_PhonePrssCrystal_output/checkpoint_Tacotron2_1500 --waveglow Biao-Bei_output/checkpoint_WaveGlow_650 -o Biao-Bei_output/ -i phrases/Biao-Bei_PhonePrssCrystal_phrase.txt --amp-run

模型2

借用单核训练的Biao-Bei pinyin 的waveGlow, 但步数450时loss nan, 就结束了, 不热身.

python inference.py --tacotron2 oneCore_Biao-Bei_PhonePrssCrystal_output/checkpoint_Tacotron2_1500 --waveglow oneCore_Biao-Bei_output/checkpoint_WaveGlow_450 -o oneCore_Biao-Bei_output/ -i phrases/Biao-Bei_PhonePrssCrystal_phrase.txt --amp-run

模型3

借用单核训练的LJSpeeh1.1 的waveGlow, 英文的和中文分布可能会有偏差, 但测试效果很好, 因为标贝我还不会调参, 不热身.

python inference.py --tacotron2 oneCore_Biao-Bei_PhonePrssCrystal_output/checkpoint_Tacotron2_1500 --waveglow oneCore_output/checkpoint_WaveGlow_1000 -o oneCore_Biao-Bei_PhonePrssCrystal_output/  -i phrases/Biao-Bei_PhonePrssCrystal_phrase.txt --amp-run

python inference.py --tacotron2 oneCore_Biao-Bei_PhonePrssCrystal_output/checkpoint_Tacotron2_1500 --waveglow oneCore_output/checkpoint_WaveGlow_1000 -o oneCore_output/ -i phrases/Biao-Bei_PhonePrssCrystal_phrase.txt --amp-run

模型4

如果合成英文的话:

python inference.py --tacotron2 output/checkpoint_Tacotron2_750 --oneCore_output/checkpoint_WaveGlow_1000 -o output/  -i phrases/phrase.txt --amp-run

借用LJSpeech 的waveGlow, 不热身.

python inference.py --tacotron2 oneCore_Biao-Bei_PhonePrssCrystal_output/checkpoint_Tacotron2_1500 --waveglow oneCore_output/checkpoint_WaveGlow_1000 -o oneCore_Biao-Bei_PhonePrssCrystal_outpu