语音识别的基本概念

原创

已于 2024-04-28 03:32:35 修改 · 2.3k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-04-28 00:39:13 首次发布

语音识别的基本概念

言语是一种复杂的现象。人们很少了解它是如何产生和感知的。天真的想法常常是语音是由单词构成的，而每个单词又由音素组成。不幸的是，现实却大不相同。语音是一个动态过程，没有明确区分的部分。找一个声音编辑器并查看演讲录音并聆听它总是很有用的。例如，这是音频编辑器中的语音录音。

所有现代的言语描述在某种程度上都是概率性的。这意味着单位之间或单词之间没有特定的界限。语音到文本的翻译和其他语音应用从来都不是 100% 正确的。对于通常使用确定性系统的软件开发人员来说，这个想法相当不寻常。它产生了许多仅针对语音技术的问题。

言语结构

在目前的实践中，语音结构的理解如下：

语音是连续的音频流，其中相当稳定的状态与动态变化的状态混合在一起。在这一系列状态中，人们可以定义或多或少相似的声音类别或音素。人们认为文字是由电话构成的，但这肯定不是事实。与电话相对应的波形的声学特性可能会因许多因素而有很大差异 - 电话环境、说话者、讲话风格等。所谓的协同发音使手机听起来与其“规范”的表现截然不同。接下来，由于单词之间的转换比稳定区域提供更多信息，因此开发人员经常谈论双音素- 两个连续电话之间的电话部分。有时开发人员会谈论亚音位单元 - 手机的不同子状态。通常可以找到三个或更多不同性质的区域。<

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

悟V-SpHeNIC 支持科研技术

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。