气管食管语音声学伪影的分析与量化
在全喉切除术后,患者失去了正常发声的能力,恢复语音功能成为了术后康复的重要目标。目前,气管食管语音(TE 语音)、电子喉语音和食管语音是三种主要的语音恢复方式,其中 TE 语音在语音康复方面展现出了更优的潜力。然而,TE 语音存在质量和可懂度较低的问题,本文旨在分析和量化 TE 语音中的声学伪影,为语音康复和合成技术提供有价值的参考。
1. 背景与目标
全喉切除术(TL)使患者的声带被移除,无法以常规方式发声。TE 语音通过在气管和食管之间创建手术瘘管(TE 穿刺),放置发声假体,让气流从气管流向食管和声道,从而产生语音。但 TE 语音的周期性和规律性较差,自然度和可懂度明显降低,说话者的个性也常丢失,尤其在女性患者中更为明显。
过去对 TE 语音的研究存在一些不足,如未对伪影进行分类、依赖手动检查或不适合 TE 语音分析的工具、涉及患者数量有限等。本文的目标是对 TE 语音中的声学伪影进行自动分析和量化,为语音治疗师评估患者语音质量、跟踪患者进展以及设计个性化练习提供依据,同时为合成更自然、可懂的 TE 语音提供参考。
2. 数据库
实验使用的数据库包含三个数据集:
- TTS 数据集 :来自卡内基梅隆大学语言技术研究所为开发文本转语音(TTS)合成器而收集的录音,选用了 CMU ARCTIC 语料库中的 7 位说话者(5 男 2 女),每位说话者有 30 个发音样本,作为正常高质量语音的参考。
- Control 数据集 :由语音治疗师在医院使用高质量手持录音机(Olympus LS - 5)和外部领夹式
超级会员免费看
订阅专栏 解锁全文
1590

被折叠的 条评论
为什么被折叠?



