语音与呼吸模式分析:从阅读到自然表达
在语音研究领域,语音信号与呼吸模式之间的紧密联系一直是备受关注的话题。它们不仅依赖于相同的呼吸器官,还受到各种心理和生理因素的影响。例如,感冒咳嗽时声音会明显改变,而呼吸模式也能反映出呼吸道感染等健康问题。本文聚焦于阅读和自然表达这两种语音信号,深入探讨如何从中提取呼吸模式,并介绍了名为SBreathNet的深度长短期记忆(LSTM)回归模型。
1. 研究背景与动机
语音信号和呼吸模式紧密相连,且都易受心理和生理因素影响。呼吸模式可作为呼吸道感染、COVID - 19等疾病的指标,有研究表明呼吸信号包含的COVID - 19感染信息比语音信号更丰富。传统的呼吸模式捕捉方法,如视觉检查易出错,其他方法则需连接测量仪器,通常在呼吸困难严重时才会进行检查。因此,利用语音信号提取呼吸模式具有重要意义,它可以通过智能手机麦克风方便地在非临床环境下进行。
2. 过往研究回顾
过往有多种方法用于从语音信号中提取呼吸模式,常用的评估指标是皮尔逊相关系数(r值),还会比较呼吸频率(BPM)和潮气量等呼吸参数。已使用的语音特征包括梅尔频率倒谱系数(MFCCs)、均方根误差、过零率(ZCR)、频谱斜率、倒谱图和对数梅尔频谱图等,也有研究将原始语音波形输入深度神经网络。不同研究在不同数据集上取得了不同的r值,如在某些研究中使用LSTM网络在特定数据集上取得了0.36 - 0.47的r值。在2020年Interspeech的计算副语言学挑战赛(ComParE)的呼吸子挑战中,基线r值在开发集(16名说话者)为0.50,测试集(17名说话者)为0.73,获胜者报告的r值为0.76。
语音主要分为阅读语音和自然表达语音,这两种语
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



