基于语音的疾病检测联合学习
1. 引言
语音分析为疾病检测提供了一种非侵入性的方法。它有助于检测多种疾病,如帕金森病、阿尔茨海默病、声带麻痹和声带结节等,甚至还能预测帕金森病的严重程度。与喉镜和内窥镜等先进诊断工具相比,语音分析具有非侵入性、无痛且方便的优点。
常见的语音测试有连续语音和持续元音两种。由于连续语音常伴有混淆效应,大多数研究使用正常音高的单个元音进行分析。
语音疾病检测是一个典型的模式识别问题,过去文献中提出的特征大致可分为三类:
- 量化周期性程度的特征 :如描述基频和振幅周期扰动的抖动(jitter)和闪烁(shimmer),还有声门商(GQ)、递归周期密度熵(RPDE)和音高周期熵(PPE)等。
- 评估语音中噪声程度的特征 :像谐波噪声比(HNR)、噪声谐波比(NHR)和去趋势波动分析(DFA)等。
- 用于语音和说话人识别的特征 :例如梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)和线性预测倒谱系数(LPCC)等。
然而,现有方法大多仅考虑单个音频,而不同音频包含互补信息,融合它们会更有益。同时,以往的融合方法存在不足,如音频级融合和特征级融合简单但可能无效,决策级融合虽性能较好但耗时。因此,有必要探索一种新的语音融合方案。
2. 相关工作
2.1 符号说明
- 矩阵用大写粗体字母表示,列向量用小写粗体字母表示。
- (A^T) 表示矩阵 (A) 的转置,(I) 是单位矩阵。 <
超级会员免费看
订阅专栏 解锁全文
949

被折叠的 条评论
为什么被折叠?



