DTW(Dynamic Time Warping)算法

最新推荐文章于 2025-07-08 20:08:19 发布

xmdxcsj

最新推荐文章于 2025-07-08 20:08:19 发布

阅读量5.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：语音识别文章标签：算法

本文链接：https://blog.youkuaiyun.com/xmdxcsj/article/details/70300146

语音识别专栏收录该内容

10 篇文章

订阅专栏

本文介绍了一种用于语音特征比对的算法，包括warping function定义及其限制条件、time-normalized distance计算方法、DP算法求解过程及两种权重系数计算方式。通过对称形式权重系数与DP算法结合，实现对不同语音特征序列的有效比对。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

变量定义

1.warping function
$F = c (1), c (2) . . . c (k) . . . c (K)$
其中 $c (k) = (i (k), j (k))$
表示两个语音特征序列A和B之间的映射关系。
2.time-normalized distance
$D(A,B)=MinF[∑k=1Kd(c(k))⋅w(k)∑k=1Kw(k)]D(A,B)=Min_F[\frac{\sum_{k=1}^K d(c(k))\cdot w(k)}{\sum_{k=1}^K w(k)}]$
其中 $∑w(k)\sum w(k)$ 用来归一化不同路径的K大小不一致的问题， $d ()$ 表示两个特征向量之间的距离。

warping function的限制条件

这里写图片描述
1.单调性
$j(k−1)≤j(k)i(k-1)\le i(k)\ and\ j(k-1) \le j(k)$
2.连续性
$\le 1 \ and\ j(k)-j(k-1)\le 1$
由以上两个条件限制了只能向三个方向移动，向上/向右/向右上，而且每次只能移动一步
3.边界条件
$j(1)=1\ and\ i(K)=I,j(K)=J$
4.窗口限制
$∣i(k)−j(k)∣≤r|i(k)-j(k)|\le r$
加窗为了将对齐路径限制在对角线附近。
5.斜率限制
$P = n / m$
避免在横轴i方向或纵轴j方向走的太偏,当在一个方向走了m步以后，需要在对角线方向走n步。

权重系数w

有两种典型的计算方式
1.对称形式
$w (k) = (i (k) - i (k - 1)) + (j (k) - j (k - 1))$
$N=∑k=1Kw(k)=I+JN=\sum_{k=1}^K w(k)=I+J$
2.非对称形式
$w (k) = (i (k) - i (k - 1))$
$N=∑k=1Kw(k)=IN=\sum_{k=1}^K w(k)=I$
在j方向也一样。
对称形式的效果更好。

DP求解

假设使用对称形式的权重系数，不使用斜率限制

初始条件
$g (1, 1) = 2 d (1, 1)$
DP
$g(i−1,j)+d(i,j)]g(i,j)=min[g(i,j-1)+d(i,j)，\ g(i-1,j-1)+2d(i,j)，\ g(i-1,j)+d(i,j)]$
其中窗口限制条件 $j−r≤i≤j+rj-r\le i\le j+r$
距离
$D(A,B)=1I+Jg(I,J)D(A,B)=\frac{1}{I+J}g(I,J)$