3、从人声模仿中自动识别声音类别及和弦和声张力的自动估计

最新推荐文章于 2025-07-09 15:09:36 发布

雪落无声360

最新推荐文章于 2025-07-09 15:09:36 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：音乐科技与未来创新文章标签：音频处理声音类别识别和声张力估计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/agile9scrum/article/details/149519294

音乐科技与未来创新专栏收录该内容

74 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

从人声模仿中自动识别声音类别及和弦和声张力的自动估计

在音频处理和音乐研究领域，声音类别识别和和声张力估计是两个重要的研究方向。下面将分别介绍从人声模仿中自动识别声音类别以及基于和弦分布式表示自动估计和声张力的相关内容。

从人声模仿中自动识别声音类别

音频基元与声学线索的关系
- 通过对SI - PLCA找到的“音频基元”与手动标注的“声学线索”进行比较，发现存在多个聚类。例如，{H, HNS, HS, HQS, HNL, HL} 聚类包含了所有谐波“声学线索”，{NS, NQS} 和 {NV, NL} 聚类包含了噪声“声学线索”，{RL, RP, NP} 聚类包含了粗糙度和脉冲相关的“声学线索”。这表明用于聚类的内核与这些“声学线索”相关，可以被视为音频基元。
- 对于K = 6和K = 8内核的情况都可以进行类似的分析。
声音类别识别实验
- 评估协议 ：由于数据集样本较少（115个），采用三折交叉验证，并按受试者过滤数据。使用两种不同配置：K = 6内核（大小为f = 30×t = 15）和K = 8内核（大小为f = 25×t = 25），并对每个配置的HMM参数进行了调整。
- DTW基线系统 ：将SI - PLCA/HMM系统的结果与基于动态时间规整（DTW）的基线系统进行比较。DTW系统中，每个声音模仿由5个特征的时间序列表示，通过计算每个特征序列的DTW对齐进行声音比

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。