53、语音合成与识别系统的创新探索

sprite

于 2025-08-11 11:53:06 发布

阅读量38

点赞数

CC 4.0 BY-SA版权

分类专栏：文本与语音的智能对话文章标签：语音合成 ASR系统 A*算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sprite/article/details/151005224

文本与语音的智能对话专栏收录该内容

72 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

语音合成与识别系统的创新探索

1. 新型语音合成系统

1.1 系统概述

介绍了一种新的语音合成系统，该系统采用了基于 A* 的单元选择算法，而非传统的维特比算法。此系统旨在深入探索拼接式语音合成的行为，运用了先进的机制进行单元选择。

1.2 A* 算法优势

使用 A* 算法能轻松探索单元选择问题中的 N 条最优路径，同时，良好的启发式方法可大幅缩短解决问题所需的时间，且不牺牲结果的最优性。

1.3 成本函数评估

对该新系统的多个成本函数进行了评估，结果显示，虽然元音三明治单元在语料库缩减方面非常有效，但在作为选择过程的一部分使用时，并不会提高语音质量。此外，还建立了一个参考成本函数“平滑”，以供进一步实验使用。

2. 法国 REPERE 评估活动的 ASR 系统

2.1 项目背景

REPERE 是一个关于电视文档中人物识别的评估项目，由法国国防采购局资助，于 2014 年结束。其中包括对法语电视节目自动语音识别系统的评估。SODA 联盟提出的 ASR 系统结合了 CRIM 和 LIUM 机构的两个 ASR 系统，并在评估任务中获胜。

2.2 系统组成

2.2.1 说话人分割

使用 LIUM_SpkDiarization 说话人分割工具包对音频记录进行分割，并按说话人对语音段进行聚类。该系统包括基于声学贝叶斯信息准则（BIC）的分割和基于 BIC 的层次聚类，每个聚类代表一个说话人，并使用全协方差高斯模型进行建模。使用 12 MFCC + E 特征，以 10ms 的帧速率进行分

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。