Wav2vec 2.0嵌入聚合策略的研究与实践
1. 数据集介绍
1.1 iHEARu - EAT数据库
- 该数据库包含30名受试者(15名女性,15名男性)的语音录制。录制环境为安静且略有回声的办公室,采样率为16 kHz。
- 分类任务是确定说话时正在吃的食物类型,包括苹果、油桃、香蕉、薯片、饼干、小熊软糖和不吃食物。
- 说话者完成了各种任务,如阅读德语版的《北风和太阳》或自发讲述他们最喜欢的活动。
- 数据库以说话者无关的方式分为训练集(14名说话者)、开发集(6名说话者)和测试集(10名说话者)。
1.2 URTIC数据库
- 由德国伍珀塔尔大学安全技术研究所提供,包含630名参与者(248名女性,382名男性)的德语母语语音。
- 语料库总时长约45小时。分类任务是确定说话者是否感冒。
- 录制的采样率从44.1 kHz下采样到16 kHz。参与者的任务包括阅读短篇小说、发出语音命令和自发讲述个人经历。
- 语料库分为三组(训练集、开发集、测试集),每组包含210名说话者。训练集和开发集包含37名感染者和173名未感染者。
1.3 AIBO数据库
- FAU AIBO情感语料库包含51名德国儿童与名为AIBO的宠物机器人玩耍时的语音录制。
- 录制来自两所学校:欧姆学校9959条录音和蒙特学校8257条录音,总时长约9小时。
- 欧姆子集分为训练集(7578条话语,20名儿童)和开
Wav2vec 2.0嵌入聚合策略研究
超级会员免费看
订阅专栏 解锁全文
749

被折叠的 条评论
为什么被折叠?



