35、音节重音检测中学习表示的比较

最新推荐文章于 2025-10-05 10:37:08 发布

oo7890

最新推荐文章于 2025-10-05 10:37:08 发布

阅读量46

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：音节重音检测表示学习变分自动编码器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702360

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

音节重音检测中学习表示的比较

1. 数据准备

在实验中，使用了 ISLE 语料库，选取了 46 位学习英语的非母语人士的 7834 条语音语句，其中 23 位是德国人（GER），23 位是意大利人（ITA）。具体的数据处理步骤如下：
1. 由五名语言学家对全部音频进行语音标注，以反映说话者的发音。
2. 通过自动强制对齐过程，对每个语句进行语音对齐。
3. 使用 P2TK 音节划分软件，从音素转录中获取音节转录。
4. 利用对齐的音素边界，得到对齐的音节边界。
5. 手动标注音节重音，确保每个单词只有一个重读音节。标注结果为 48868 个重读音节和 16693 个非重读音节。实验使用包含所有多音节词的数据，得到 12388 个重读音节和 16005 个非重读音节。
6. 对 GER 和 ITA 的数据进行训练集和测试集的划分，划分时平衡了说话者的国籍、年龄、性别和熟练程度。

训练集和测试集的划分详情如下表所示：
| 说话者群体 | 训练集 | 测试集 |
| — | — | — |
| GER | 第 1 - 12 位说话者的数据 | 第 13 - 23 位说话者的数据 |
| ITA | 第 1 - 13 位说话者的数据 | 第 14 - 23 位说话者的数据 |

2. 方法介绍

2.1 自动编码器类型

2.1.1 简单自动编码器（AE）

简单自动编码器由编码器和解码器组成。编码器将 d 维输入特征向量 X 编码为低维潜在向量，解码器从潜在向量中解码出对应的特征向量 ˆX。整个编码器 - 解码器架构通过损失

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。