43、儿童自动说话人验证系统的数据增强与特征拼接技术

儿童说话人验证数据增强与特征拼接

最新推荐文章于 2025-11-10 10:12:11 发布

oo7890

最新推荐文章于 2025-11-10 10:12:11 发布

阅读量58

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：儿童自动说话人验证数据增强特征拼接

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702391

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

儿童自动说话人验证系统的数据增强与特征拼接技术

1 引言

在儿童自动说话人验证（ASV）系统的开发中，数据稀缺是一个关键问题，这会导致系统性能不佳。为了解决这个问题，我们提出了一种跨领域数据增强技术，并结合特征拼接方法，旨在提高儿童 ASV 系统的性能。

2 跨领域数据增强

由于儿童语音数据有限，使用少量儿童语音训练基于 x 向量的 ASV 系统会导致性能不理想。因此，我们利用现有的成人语音语料库合成具有儿童语音声学属性的语音数据，并将其与儿童语音一起用于训练模型参数。具体方法如下：
1. 语音转换（VC） ：使用循环一致生成对抗网络（CGAN）对成人语音进行转换。用每个说话人群体（成人和儿童）约 10 分钟的语音数据训练 CGAN，转换后的成人语音在听觉测试中听起来与儿童语音非常相似，大大减少了声学不匹配问题。
2. 音高缩放（PM） ：将成人语音的音高提高 1.35 倍，以补偿成人和儿童语音音高的差异，采用相关文献中报道的音高修改技术。
3. 时间尺度修改（TSM） ：将成人语音的说话速率降低 1.4 倍，因为儿童的说话速率比成人慢。
4. 共振峰修改（FM） ：将成人语音的共振峰频率提高 0.08 倍，考虑到儿童的共振峰频率比成人高。

最后，将所有修改后的成人语音数据与儿童语音数据和未修改的成人语音数据合并，通过默认的三向速度扰动 Kaldi 管道进一步增加训练数据量。

以下是数据增强的流程：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。