11、Wav2vec 2.0嵌入聚合策略的研究与实践

Wav2vec 2.0嵌入聚合策略研究

最新推荐文章于 2025-09-17 02:21:42 发布

gitlab7runner

最新推荐文章于 2025-09-17 02:21:42 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023精华解读文章标签： Wav2vec 2.0 嵌入聚合策略副语言学

本文链接：https://blog.youkuaiyun.com/gitlab7runner/article/details/151701446

SPECOM 2023精华解读专栏收录该内容

67 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

                    
                        
                    
                     Wav2vec 2.0嵌入聚合策略的研究与实践  
 1. 数据集介绍  
 1.1 iHEARu - EAT数据库  
 该数据库包含30名受试者（15名女性，15名男性）的语音录制。录制环境为安静且略有回声的办公室，采样率为16 kHz。 
 分类任务是确定说话时正在吃的食物类型，包括苹果、油桃、香蕉、薯片、饼干、小熊软糖和不吃食物。 
 说话者完成了各种任务，如阅读德语版的《北风和太阳》或自发讲述他们最喜欢的活动。 
 数据库以说话者无关的方式分为训练集（14名说话者）、开发集（6名说话者）和测试集（10名说话者）。 
 
 1.2 URTIC数据库  
 由德国伍珀塔尔大学安全技术研究所提供，包含630名参与者（248名女性，382名男性）的德语母语语音。 
 语料库总时长约45小时。分类任务是确定说话者是否感冒。 
 录制的采样率从44.1 kHz下采样到16 kHz。参与者的任务包括阅读短篇小说、发出语音命令和自发讲述个人经历。 
 语料库分为三组（训练集、开发集、测试集），每组包含210名说话者。训练集和开发集包含37名感染者和173名未感染者。 
 
 1.3 AIBO数据库  
 FAU AIBO情感语料库包含51名德国儿童与名为AIBO的宠物机器人玩耍时的语音录制。 
 录制来自两所学校：欧姆学校9959条录音和蒙特学校8257条录音，总时长约9小时。 
 欧姆子集分为训练集（7578条话语，20名儿童）和开