零样本歌唱语音转换与预训练模型在心音检测中的应用研究
零样本歌唱语音转换实验
实验设置
在实验中,使用了一个内部的中文流行歌曲数据集。该数据集包含 120 位歌手,每位歌手演唱 20 首流行歌曲,总时长约 120 小时,采样率为 48kHz,量化精度为 16 位。为了训练 24kHz 解码器,还将数据下采样到 24kHz。
随机选择 12 位歌手进行测试,其余用于训练。测试集包括 6 位男性和 6 位女性歌手,从中选择 3 位男性和 3 位女性作为源歌手,其余作为目标歌手进行转换。从每位源歌手随机选择 5 个测试语音样本转换到每位目标歌手,共得到 180 个测试样本。
模型方面,文本编码器以音素标签为输入(中文中通常对应辅音和元音),使用单调对齐搜索(MAS)算法进行音素到潜在变量的对齐。由于歌唱语音转换(SVC)不需要像文本转语音(TTS)那样的音素时长,训练时移除了时长预测器。音色编码器基于 ECAPA - TDNN 结构构建,并使用内部 60kh 说话人识别数据集进行预训练。用于音色空间建模的 Glow 模块遵循 Glow - TTS 的架构,由多个块堆叠而成,每个块包含激活归一化层、可逆 1×1 卷积层和仿射耦合层,块数设置为 6。其余超参数与 VITS 一致:音素嵌入向量维度为 192,潜在变量 z 维度为 256,文本编码器包含 6 个使用 2 个头的自注意力机制的快速傅里叶变换(FFT)。使用 AdamW 优化器,β1 = 0.9,β2 = 0.99,权重衰减 λ = 0.01。学习率从初始的 2×10⁻⁴开始,在每次训练迭代中衰减 0.9991/8。激励信号生成器的超参数设置为 σ = 0.003,α = 0.1,H = 8。所有模型在 V100 GPU 上以
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



