语音合成与识别系统的创新探索
1. 新型语音合成系统
1.1 系统概述
介绍了一种新的语音合成系统,该系统采用了基于 A* 的单元选择算法,而非传统的维特比算法。此系统旨在深入探索拼接式语音合成的行为,运用了先进的机制进行单元选择。
1.2 A* 算法优势
使用 A* 算法能轻松探索单元选择问题中的 N 条最优路径,同时,良好的启发式方法可大幅缩短解决问题所需的时间,且不牺牲结果的最优性。
1.3 成本函数评估
对该新系统的多个成本函数进行了评估,结果显示,虽然元音三明治单元在语料库缩减方面非常有效,但在作为选择过程的一部分使用时,并不会提高语音质量。此外,还建立了一个参考成本函数“平滑”,以供进一步实验使用。
2. 法国 REPERE 评估活动的 ASR 系统
2.1 项目背景
REPERE 是一个关于电视文档中人物识别的评估项目,由法国国防采购局资助,于 2014 年结束。其中包括对法语电视节目自动语音识别系统的评估。SODA 联盟提出的 ASR 系统结合了 CRIM 和 LIUM 机构的两个 ASR 系统,并在评估任务中获胜。
2.2 系统组成
2.2.1 说话人分割
使用 LIUM_SpkDiarization 说话人分割工具包对音频记录进行分割,并按说话人对语音段进行聚类。该系统包括基于声学贝叶斯信息准则(BIC)的分割和基于 BIC 的层次聚类,每个聚类代表一个说话人,并使用全协方差高斯模型进行建模。使用 12 MFCC + E 特征,以 10ms 的帧速率进行分
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



