语音识别基础算法——动态时间规整算法

hmt.sysfixer.net

于 2024-12-30 12:48:30 发布

阅读量1.3k

点赞数 15

CC 4.0 BY-SA版权

文章标签：语音识别算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/rickyzhang2008/article/details/144822493

前言

动态时间规整算法，Dynamic Time Wraping，缩写为DTW，是语音识别领域的一个基础算法。

算法的提出

DTW 的提出是为了解决或尽量解决在语音识别当中的孤立词识别不正确的问题。该问题简单描述为：在识别阶段，将输入语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较，最后将相似度最高者作为识别结果输出。但是，由于语音信号具有相当大的随机性，即使是同一个人在不同时刻所讲的同一句话、发的同一个音，也不可能具有完全相同的时间长度。而在进行模板匹配时，这些时间长度的变化会影响测度的估计，从而降低识别率。对此，日本学者板仓（Itakura）将动态规划（DP）算法的概念用于解决孤立词识别时的说话速度不均匀的难题，提出了著名的动态时间规整算法或称动态时间伸缩算法（DTW）。

算法的内容

DTW 的目标是从不同时间跨度的两个数据求出它们之间的最小总累计距离，所以首先我们要找出输入矢量和参考矢量之间的对应关系，从而根据对应的矢量来求出模板之间的最小累计距离。在求累计距离的每一步中，需要满足以下条件的规整函数：

边界条件

w(1) = 1，w(N) = M （3-1）

即规整函数起点为（1,1），终点为（N，M），
连续条件

w(n + 1) = w(n) + 0/1/2，如果 w(n) <> w(n - 1) 成立（3-2）

w(n + 1) = w(n) + 1/2，如果 w(n) == w(n - 1) 成立（3-3）

Tip：

式（3-2）意思是 w() 的当前值和前一个 w() 值不相等，说明已经加过 1 或 2 ，则 w(n + 1) 的加上的值可为

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。