音节重音检测中学习表示的比较
1. 数据准备
在实验中,使用了 ISLE 语料库,选取了 46 位学习英语的非母语人士的 7834 条语音语句,其中 23 位是德国人(GER),23 位是意大利人(ITA)。具体的数据处理步骤如下:
1. 由五名语言学家对全部音频进行语音标注,以反映说话者的发音。
2. 通过自动强制对齐过程,对每个语句进行语音对齐。
3. 使用 P2TK 音节划分软件,从音素转录中获取音节转录。
4. 利用对齐的音素边界,得到对齐的音节边界。
5. 手动标注音节重音,确保每个单词只有一个重读音节。标注结果为 48868 个重读音节和 16693 个非重读音节。实验使用包含所有多音节词的数据,得到 12388 个重读音节和 16005 个非重读音节。
6. 对 GER 和 ITA 的数据进行训练集和测试集的划分,划分时平衡了说话者的国籍、年龄、性别和熟练程度。
训练集和测试集的划分详情如下表所示:
| 说话者群体 | 训练集 | 测试集 |
| — | — | — |
| GER | 第 1 - 12 位说话者的数据 | 第 13 - 23 位说话者的数据 |
| ITA | 第 1 - 13 位说话者的数据 | 第 14 - 23 位说话者的数据 |
2. 方法介绍
2.1 自动编码器类型
2.1.1 简单自动编码器(AE)
简单自动编码器由编码器和解码器组成。编码器将 d 维输入特征向量 X 编码为低维潜在向量,解码器从潜在向量中解码出对应的特征向量 ˆX。整个编码器 - 解码器架构通过损失
超级会员免费看
订阅专栏 解锁全文
48

被折叠的 条评论
为什么被折叠?



