32、零样本歌唱语音转换与预训练模型在心音检测中的应用研究

零样本歌唱语音转换与预训练模型在心音检测中的应用研究

零样本歌唱语音转换实验

实验设置

在实验中,使用了一个内部的中文流行歌曲数据集。该数据集包含 120 位歌手,每位歌手演唱 20 首流行歌曲,总时长约 120 小时,采样率为 48kHz,量化精度为 16 位。为了训练 24kHz 解码器,还将数据下采样到 24kHz。
随机选择 12 位歌手进行测试,其余用于训练。测试集包括 6 位男性和 6 位女性歌手,从中选择 3 位男性和 3 位女性作为源歌手,其余作为目标歌手进行转换。从每位源歌手随机选择 5 个测试语音样本转换到每位目标歌手,共得到 180 个测试样本。
模型方面,文本编码器以音素标签为输入(中文中通常对应辅音和元音),使用单调对齐搜索(MAS)算法进行音素到潜在变量的对齐。由于歌唱语音转换(SVC)不需要像文本转语音(TTS)那样的音素时长,训练时移除了时长预测器。音色编码器基于 ECAPA - TDNN 结构构建,并使用内部 60kh 说话人识别数据集进行预训练。用于音色空间建模的 Glow 模块遵循 Glow - TTS 的架构,由多个块堆叠而成,每个块包含激活归一化层、可逆 1×1 卷积层和仿射耦合层,块数设置为 6。其余超参数与 VITS 一致:音素嵌入向量维度为 192,潜在变量 z 维度为 256,文本编码器包含 6 个使用 2 个头的自注意力机制的快速傅里叶变换(FFT)。使用 AdamW 优化器,β1 = 0.9,β2 = 0.99,权重衰减 λ = 0.01。学习率从初始的 2×10⁻⁴开始,在每次训练迭代中衰减 0.9991/8。激励信号生成器的超参数设置为 σ = 0.003,α = 0.1,H = 8。所有模型在 V100 GPU 上以

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值