亚洲象发声解码与儿童短语音自动说话人验证技术
1. 亚洲象发声研究
1.1 数据选择
为了开发亚洲象叫声类型分类器,从数据集中挑选了 226 个代表所有叫声类型的叫声。选择基于行为背景和叫声质量。在进行个体识别和特定情境行为实验时,选择了喇叭声(trumpet)和啁啾声(chirp)两种叫声,因为隆隆声(rumble)和咆哮声(roar)每个个体的数据量有限,未被选用。个体识别实验仅纳入发出超过三次叫声的个体,平均从两个个体获得 12.5 个啁啾声,从八个个体获得 7.5 个喇叭声。以下是特定情境行为实验中喇叭声和啁啾声的使用数量分布:
| 特定情境行为 | 啁啾声数量 | 喇叭声数量 |
| — | — | — |
| 积极 | 12 | 13 |
| 中性 | 5 | 22 |
| 消极 | 8 | 25 |
1.2 分析框架
提出了一个全面的亚洲象声学数据分析框架,主要步骤如下:
1. 分割 :使用 PRAAT 6.2.03 软件对声学记录进行可视化检查,打开记录,观察波形和频谱图,参考实地笔记并听取记录以获取叫声信息。确定原始数据中的叫声后,精确标记每个叫声的起始和结束时间,然后裁剪出包含目标叫声的特定部分。
2. 特征提取和声学分析 :使用基于 Python 的开源特征提取工具 openSMILE 提取特征,采用扩展的日内瓦简约声学参数集(eGeMAPS),得到 25 个低级描述符(LLDs)和 88 个功能特征。LLDs 包括发声特征、频谱特征、倒谱特征和能量特征,88 个功能特征是在计算 LLD
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



