动态规划:编辑距离

        编辑距离(Edit Distance),又称为莱文斯坦距离(Levenshtein Distance),是衡量两个字符串之间的相似度的一种重要算法。具体来说,它计算从一个字符串转换到另一个字符串所需的最少操作次数。常见的操作包括插入一个字符、删除一个字符和替换一个字符。编辑距离算法在机器翻译、语音识别和拼写纠错等领域有广泛应用。


目录

题目

思路

解题过程

初始化

填充DP表

边界条件

返回结果

复杂度

时间复杂度

空间复杂度

code


题目

        给两个单词 word1 和 word2, 请返回将 word1 转换成 word2 所使用的最少操作数 。你可以对一个单词进行如下三种操作:

  • 插入一个字符
  • 删除一个字符
  • 替换一个字符

示例 1:

输入:word1 = "horse", word2 = "ros"
输出:3
解释:
horse -> rorse (将 'h' 替换为 'r')
rorse -> rose (删除 'r')
rose -> ros (删除 'e')

示例 2:

输入:word1 = "intention", word2 = "execution"
输出:5
解释:
intention -> inention (删除 't')
inention -> enention (将 'i' 替换为 'e')
enention -> exention (将 'n' 替换为 'x')
exention -> exection (将 'n' 替换为 'c')
exection -> execution (插入 'u')

提示:

  • 0 <= word1.length, word2.length <= 500
  • word1 和 word2 由小写英文字母组成

思路

        这个问题是典型的动态规划问题,可以使用二维动态规划数组dp来解决。其中dp[i][j]表示将word1的前i个字符转换成word2的前j个字符所需的最少操作数。我们需要初始化边界条件,然后填充整个dp表。

对于每个dp[i][j],我们有三种情况可以考虑:

  1. 如果word1[i-1] == word2[j-1],即当前字符相同,那么不需要任何操作,dp[i][j] = dp[i-1][j-1]
  2. 如果不相同,我们可以选择删除word1的第i个字符,这对应于dp[i-1][j] + 1(即删除操作)。
  3. 或者我们可以在word1的第i个位置插入word2的第j个字符,这对应于dp[i][j-1] + 1(即插入操作)。
  4. 或者我们可以将word1的第i个字符替换为word2的第j个字符,这对应于dp[i-1][j-1] + 1(即替换操作)。

        我们需要取这三种情况中的最小值。

换一种说法:

        想象你是一位文字编辑,你的任务是将一篇手稿(我们称之为word1)修改成另一篇最终版本(我们称之为word2)。在这个过程中,你有三种工具可以使用:

  1. 插入笔:这支笔能让你在手稿的任何位置插入一个字符,以匹配最终版本。
  2. 删除橡皮擦:这个橡皮擦能擦除手稿上的任何字符,以消除不需要的部分。
  3. 替换墨水:这个特殊的墨水可以让你将手稿上的某个字符替换成另一个字符,以匹配最终版本。

        你的目标是使用最少的操作次数(即最少的笔划、橡皮擦擦除和墨水替换)来完成这个任务。


解题过程

  • 初始化

  1. 创建一个二维数组dp,大小为(len(word1) + 1)×(len(word2) + 1),并初始化为0。注意这里我们让数组的大小比单词长度多1,是为了方便处理空字符串的情况。
  2. 初始化第一行和第一列,表示将一个空字符串转换成另一个字符串(或相反)所需的操作数,即字符串的长度。
  • 填充DP表

        对于D[i][j]的计算,要考虑三种情况:

  1. 插入操作:在word1的第i个位置之前插入word2的第j个字符,这等价于计算D[i][j-1] + 1(即在word1的前i个字符与word2的前j-1个字符之间的编辑距离基础上加1)。
  2. 删除操作:删除word1的第i个字符,这等价于计算D[i-1][j] + 1(即在word1的前i-1个字符与word2的前j个字符之间的编辑距离基础上加1)。
  3. 替换操作:如果word1的第i个字符与word2的第j个字符不同,则替换它,这等价于计算D[i-1][j-1] + 1。如果它们相同,则不需要替换,直接继承D[i-1][j-1]的值。

        结合上述操作,状态转移方程为:  

D[i][j] = \min(D[i-1][j] + 1, D[i][j-1] + 1, D[i-1][j-1] + cost)

        其中,cost 为 0(如果 A[i-1] == B[j-1])或 1(如果 A[i-1] != B[j-1])。

  • 边界条件

  1. 如果字符串 A 为空,则 D[0][j] = j,因为我们需要 j 次插入操作。
  2. 如果字符串 B 为空,则 D[i][0] = i,因为我们需要 i 次删除操作。
  3. 两个字符串都为空时,编辑距离为0,因为它们已经相同
  • 返回结果

        返回dp[len(word1)][len(word2)],即将整个word1转换成整个word2所需的最少操作数。


复杂度

  • 时间复杂度

        O(m * n),其中m和n分别是word1word2的长度。因为我们需要填充一个m+1 x n+1的二维数组。

  • 空间复杂度

        O(m * n),同样是因为需要一个m+1 x n+1的二维数组来存储中间结果。


code

class Solution(object):
    def minDistance(self, word1, word2):
        m, n = len(word1), len(word2)
        dp = [[0] * (n + 1) for _ in range(m + 1)]
    
        # 初始化第一行和第一列
        for i in range(m + 1):
            dp[i][0] = i
        for j in range(n + 1):
            dp[0][j] = j
    
        # 填充 DP 表
        for i in range(1, m + 1):
            for j in range(1, n + 1):
                if word1[i - 1] == word2[j - 1]:
                    dp[i][j] = dp[i - 1][j - 1]
                else:
                    dp[i][j] = min( dp[i - 1][j] + 1,  # 删除
                                    dp[i][j - 1] + 1,  # 插入
                                    dp[i - 1][j - 1] + 1)  # 替换
    
        return dp[m][n]

<think>好的,我现在需要帮助用户找到关于使用C语言实现动态规划解决编辑距离问题的资料或代码示例。用户之前已经提供了一些引用内容,包括代码和解释,我需要仔细分析这些内容并给出清晰的回答。 首先,我需要确认编辑距离问题的基本概念。编辑距离是指将一个字符串转换为另一个字符串所需的最少操作次数,操作包括插入、删除和替换字符。动态规划是解决这个问题的常用方法,因为它可以分解问题为重叠的子问题,并利用之前的计算结果来优化效率。 接下来,我需要查看用户提供的引用内容,尤其是引用[1]中的C语言代码。这段代码定义了一个min函数来取三个数的最小值,然后实现了myCharDistance函数来计算编辑距离。代码中使用了二维数组dist来存储子问题的结果,初始化了边界条件,然后通过双重循环填充整个数组。如果当前字符相同,则直接继承左上角的值;否则,计算插入、删除、替换三种操作的最小值并加1。 用户还提到了其他引用,比如引用[3]中的示例,展示了从"intention"到"execution"的转换步骤,这有助于理解编辑距离的实际应用。引用[4]则来自LeetCode,明确了允许的三种操作,这与我之前的理解一致。 我需要确保回答的结构清晰,符合用户的要求。首先解释动态规划解决编辑距离的原理,然后展示代码示例,并详细分析代码结构。同时,按照用户的指示,行内数学公式用$...$,独立公式用$$...$$,但根据用户提供的示例,可能不需要太多公式,但如果有的话需要正确应用。 另外,用户要求生成相关问题,我需要根据内容提出几个相关问题,比如动态规划的原理、优化方法、空间复杂度优化等。这些问题需要与编辑距离和C语言实现相关,帮助用户进一步学习。 需要注意代码中的一些关键点,比如dist数组的索引与字符串的对应关系,因为字符串是从0开始,而dist数组从1开始,所以在比较字符时使用的是str1[i-1]和str2[j-1]。这一点需要特别说明,避免读者混淆。 最后,确保引用正确,用户提供的引用[1]到[4]需要在回答中适当标注,例如在解释动态规划方程时引用相关示例或代码部分。同时,回答要使用中文,保持口语化,避免使用专业术语过多,但必要的术语需要准确。 总结步骤: 1. 介绍编辑距离的基本概念和动态规划的应用。 2. 分析用户提供的代码示例,解释关键部分。 3. 分步说明动态规划的实现步骤,包括初始化、状态转移方程。 4. 提供完整的代码示例并注释。 5. 生成相关问题,促进深入学习。 6. 确保引用正确,格式符合要求。 现在需要检查是否有遗漏点,比如空间复杂度优化方法,或者不同情况的处理(如空字符串)。用户的代码中已经处理了空字符串的情况,通过初始化dist[i][0]和dist[0][j]。另外,替换操作的代价是否为1,根据问题定义是正确的,所有操作都是单位成本。 可能还需要提到测试用例,比如用户提供的示例输入输出,以验证代码的正确性。例如,输入"intention"和"execution"应返回5,如引用[3]所示。 确保代码部分正确使用高亮,并且解释清晰,没有错误。同时,注意用户提到的系统级指令,如数学公式的格式和引用标识的添加。</think>### 动态规划解决编辑距离问题的C语言实现 编辑距离(Levenshtein距离)是衡量两个字符串之间差异的经典算法,通过动态规划可高效求解。其核心思想是构建状态转移表,记录将字符串$str1[0..i]$转换为$str2[0..j]$所需的最小操作次数[^4]。 --- #### 实现步骤 1. **定义状态** 用二维数组$dist[i][j]$表示将$str1$前$i$个字符转换为$str2$前$j$个字符的最小操作次数。 2. **初始化边界条件** - 当$str2$为空时:$dist[i][0] = i$(需删除$i$次) - 当$str1$为空时:$dist[0][j] = j$(需插入$j$次) 3. **状态转移方程** $$dist[i][j] = \begin{cases} dist[i-1][j-1] & \text{当 } str1[i-1] = str2[j-1] \\ \min(dist[i-1][j], dist[i][j-1], dist[i-1][j-1]) + 1 & \text{否则} \end{cases}$$ 其中三种操作对应:删除、插入、替换[^2][^4]。 --- #### 完整代码示例 ```c #include<stdio.h> #include<string.h> // 取三个数中的最小值 int min(int a, int b, int c) { int temp = a < b ? a : b; return temp < c ? temp : c; } int editDistance(char* str1, char* str2) { int len1 = strlen(str1), len2 = strlen(str2); int dist[len1+1][len2+1]; // 多一行一列存储边界条件 // 初始化边界 for (int i = 0; i <= len1; i++) dist[i][0] = i; for (int j = 0; j <= len2; j++) dist[0][j] = j; // 动态规划填表 for (int i = 1; i <= len1; i++) { for (int j = 1; j <= len2; j++) { if (str1[i-1] == str2[j-1]) { dist[i][j] = dist[i-1][j-1]; } else { dist[i][j] = min( dist[i-1][j], // 删除操作 dist[i][j-1], // 插入操作 dist[i-1][j-1] // 替换操作 ) + 1; } } } return dist[len1][len2]; } int main() { char str1[] = "intention"; char str2[] = "execution"; printf("编辑距离:%d\n", editDistance(str1, str2)); // 输出5[^3] return 0; } ``` --- #### 代码分析 1. **索引对齐** 数组$dist$的行列索引从1开始,而字符串索引从0开始,故比较字符时需使用$str1[i-1]$和$str2[j-1]$[^1]。 2. **时间复杂度** 双重循环导致时间复杂度为$O(nm)$,其中$n$和$m$为两字符串长度。 3. **空间优化方向** 可通过滚动数组将空间复杂度从$O(nm)$优化到$O(n)$,仅保留当前行和上一行数据。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值