牛客题解 | 最优字符串对齐距离

最新推荐文章于 2025-12-18 17:00:31 发布

原创最新推荐文章于 2025-12-18 17:00:31 发布 · 722 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #力扣 #面试

牛客机器学习编程题题单专栏收录该内容

90 篇文章

订阅专栏

题目

题目链接

最优字符串对齐距离（Optimal String Alignment Distance）是一种衡量两个字符串之间差异的指标，又称Levenshtein距离/OSA距离，其计算公式为：
$D(s_1, s_2) = \min_{s_1 \to s_2} \sum_{i=1}^{|s_1|} \delta(s_1[i], s_2[i])$
其中， $s_1$ 和 $s_2$ 是两个字符串， $\delta(s_1[i], s_2[i])$ 是两个字符之间的距离。
这是一个经典动态规划问题，可以使用动态规划来实现。具体的动态规划思路如下：

初始化一个矩阵，矩阵的行数为source的长度+1，列数为target的长度+1，矩阵的元素初始化为0。
将矩阵的第一行和第一列填充为对应的索引值。
遍历矩阵的每一个元素，计算其值为删除、插入、替换和转置操作的最小值。
$\min(D(i-1, j) + 1, D(i, j-1) + 1, D(i-1, j-1) + \delta(source[i-1], target[j-1])) \quad \text{如果 } source[i-1] = target[j-2] \text{ 且 } source[i-2] = target[j-1] \text{ 则 } D(i, j) = \min(D(i, j), D(i-2, j-2) + 1)$
最后返回矩阵的最后一个元素的值。

本题的动态规划推导过程供读者自行思考。

标准代码如下

def OSA(source: str, target: str) -> int:
    source_len, target_len = len(source), len(target)

    # Initialize matrix with zeros
    osa_matrix = [[0] * (target_len + 1) for _ in range(source_len + 1)]

    # Fill the first row and first column with index values
    for j in range(1, target_len + 1):
        osa_matrix[0][j] = j
    for i in range(1, source_len + 1):
        osa_matrix[i][0] = i

    # Compute the OSA distance
    for i in range(1, source_len + 1):
        for j in range(1, target_len + 1):
            osa_matrix[i][j] = min(
                osa_matrix[i - 1][j] + 1,  # Deletion
                osa_matrix[i][j - 1] + 1,  # Insertion
                osa_matrix[i - 1][j - 1] + (1 if source[i - 1] != target[j - 1] else 0)  # Substitution
            )
            if i > 1 and j > 1 and source[i - 1] == target[j - 2] and source[i - 2] == target[j - 1]:
                osa_matrix[i][j] = min(osa_matrix[i][j], osa_matrix[i - 2][j - 2] + 1)  # Transposition

    return osa_matrix[-1][-1]