40、亚洲象发声解码与儿童短语音自动说话人验证技术

最新推荐文章于 2025-10-21 12:28:54 发布

oo7890

最新推荐文章于 2025-10-21 12:28:54 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签：亚洲象发声儿童短语音自动说话人验证

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702381

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

亚洲象发声解码与儿童短语音自动说话人验证技术

1. 亚洲象发声研究

1.1 数据选择

为了开发亚洲象叫声类型分类器，从数据集中挑选了 226 个代表所有叫声类型的叫声。选择基于行为背景和叫声质量。在进行个体识别和特定情境行为实验时，选择了喇叭声（trumpet）和啁啾声（chirp）两种叫声，因为隆隆声（rumble）和咆哮声（roar）每个个体的数据量有限，未被选用。个体识别实验仅纳入发出超过三次叫声的个体，平均从两个个体获得 12.5 个啁啾声，从八个个体获得 7.5 个喇叭声。以下是特定情境行为实验中喇叭声和啁啾声的使用数量分布：
| 特定情境行为 | 啁啾声数量 | 喇叭声数量 |
| — | — | — |
| 积极 | 12 | 13 |
| 中性 | 5 | 22 |
| 消极 | 8 | 25 |

1.2 分析框架

提出了一个全面的亚洲象声学数据分析框架，主要步骤如下：
1. 分割：使用 PRAAT 6.2.03 软件对声学记录进行可视化检查，打开记录，观察波形和频谱图，参考实地笔记并听取记录以获取叫声信息。确定原始数据中的叫声后，精确标记每个叫声的起始和结束时间，然后裁剪出包含目标叫声的特定部分。
2. 特征提取和声学分析 ：使用基于 Python 的开源特征提取工具 openSMILE 提取特征，采用扩展的日内瓦简约声学参数集（eGeMAPS），得到 25 个低级描述符（LLDs）和 88 个功能特征。LLDs 包括发声特征、频谱特征、倒谱特征和能量特征，88 个功能特征是在计算 LLD

会员秒杀 ¥9.9 重磅福利

超级会员免费看