阅读与即兴演讲中呼吸模式分析
1. SBreathNet模型概述
SBreathNet是一种基于LSTM的深度架构,用于从语音信号中提取呼吸模式。其具体处理流程如下:
- 利用时间和相位域分析来表示捕获到的带有呼吸模式的语音信号。
- 将表示后的语音信号输入到SBreathNet中。输入的语音信号以250个样本(250×20 ms = 5000 ms)为一组,分别通过由两个LSTM和一个密集层组成的对应LSTM块。
- 两个LSTM块的输出进行拼接,然后输入到两个连续的密集层,形成编码器网络的输出。
- 损失函数计算真实值和预测值之间的一致性相关系数(CCC)损失。
- 网络以0.001的学习率和Adam优化器进行学习,最后一个密集层的激活函数为双曲正切(tanh)函数,使预测值范围在 -1 到 1 之间。
2. 阅读语音分析
2.1 整体性能
对100位说话者在阅读语音任务中的呼吸模式进行提取,平均r值达到0.61。通过实验不同的批量长度值(LSTM层的时间步长值),发现基于5s的分析能取得最佳的整体性能。如图所示,r值高于0.50的说话者有80位。
2.2 呼吸每分钟误差(BPME)
使用scipy中的峰值检测算法,设置距离为100点,高度为0.2来检测峰值,进而计算每个说话者的BPME。平均BPME为2.50,90%的说话者BPME小于4。这表明SBreathNet能够为80%的说话者提取r值高于0.50的呼吸模式,为90%的说话者提取BPME低于4的呼吸模式。
2.3 留一说话者法(LOSO)分析
在LOSO
超级会员免费看
订阅专栏 解锁全文
80

被折叠的 条评论
为什么被折叠?



