16、气管食管语音声学伪影的分析与量化

A3B4C5

于 2025-11-08 15:34:11 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：探索非线性语音的奥秘文章标签：气管食管语音声学伪影全喉切除术

本文链接：https://blog.youkuaiyun.com/a3b4c5/article/details/155062151

探索非线性语音的奥秘专栏收录该内容

28 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

气管食管语音声学伪影的分析与量化

在全喉切除术后，患者失去了正常发声的能力，恢复语音功能成为了术后康复的重要目标。目前，气管食管语音（TE 语音）、电子喉语音和食管语音是三种主要的语音恢复方式，其中 TE 语音在语音康复方面展现出了更优的潜力。然而，TE 语音存在质量和可懂度较低的问题，本文旨在分析和量化 TE 语音中的声学伪影，为语音康复和合成技术提供有价值的参考。

1. 背景与目标

全喉切除术（TL）使患者的声带被移除，无法以常规方式发声。TE 语音通过在气管和食管之间创建手术瘘管（TE 穿刺），放置发声假体，让气流从气管流向食管和声道，从而产生语音。但 TE 语音的周期性和规律性较差，自然度和可懂度明显降低，说话者的个性也常丢失，尤其在女性患者中更为明显。

过去对 TE 语音的研究存在一些不足，如未对伪影进行分类、依赖手动检查或不适合 TE 语音分析的工具、涉及患者数量有限等。本文的目标是对 TE 语音中的声学伪影进行自动分析和量化，为语音治疗师评估患者语音质量、跟踪患者进展以及设计个性化练习提供依据，同时为合成更自然、可懂的 TE 语音提供参考。

2. 数据库

实验使用的数据库包含三个数据集：
- TTS 数据集 ：来自卡内基梅隆大学语言技术研究所为开发文本转语音（TTS）合成器而收集的录音，选用了 CMU ARCTIC 语料库中的 7 位说话者（5 男 2 女），每位说话者有 30 个发音样本，作为正常高质量语音的参考。
- Control 数据集 ：由语音治疗师在医院使用高质量手持录音机（Olympus LS - 5）和外部领夹式

会员秒杀 ¥9.9 重磅福利

超级会员免费看