动态规划——编辑距离系列问题
1 概述
编辑距离原题——72. 编辑距离,是LeetCode上的一道 hard 级别的题目,该题允许对两个字符串进行增删改(没有查)的操作,而一些类似的题目可能操作起来没有这道题这么复杂,但是也可利用同样的思路去做,因此我们把这些题型提取出来,当作一个知识点来做巩固。下面将按照由易到难的顺序来依次解决这些题目,当然有一些题目也可以用贪心等思想去做,但是由于本文着重讲解动态规划算法,所以涉及到其它的算法暂不作讨论。
2 实战
2.1 判断子序列
LeetCode链接:392. 判断子序列
给定字符串 s 和 t ,判断 s 是否为 t 的子序列。
字符串的一个子序列是原始字符串删除一些(也可以不删除)字符而不改变剩余字符相对位置形成的新字符串。(例如,"ace"是"abcde"的一个子序列,而"aec"不是)。
示例 1:
输入:s = “abc”, t = “ahbgdc”
输出:true
示例 2:
输入:s = “axc”, t = “ahbgdc”
输出:false
提示:
0 <= s.length <= 100
0 <= t.length <= 10^4
两个字符串都只由小写字符组成。
- 思路:s 和 t 都从空串开始一点点扩,在这个过程中不断判断 s 的 子串是否为 t 子串的子序列,最终得到完整的 s 是否为完整的 t 的子序列。特别地,当 s 为 t 的子串的子序列时,s 一定也为 t 的子序列。
- dp 数组和下标的定义
- 本题涉及到两个字符串,所以我们下意识定义一个二维 dp 数组,一维代表 s 字符串,另一维代表 t 字符串。
dp[i][j]
表示以第 i - 1 位结束的 s 串是否为以 j - 1 位结束的 t 串的子序列。至于为啥定义为 i - 1 和 j - 1,纯粹是为了编码(初始化)方便,如果不是很明白,可以自行定义为以第 i 位和第 j 位结尾。
// dp[i][j] 以i-1结尾的s是否是以j-1结尾的t的子序列
boolean[][] dp = new boolean[lens + 1][lent + 1];
- 递推公式
-
涉及到两个字符串(数组)的问题,大方向是分为两种情况来讨论 —— 当前位置的值相等、当前位置的值不相等:
-
if (s[i - 1] == t[j - 1]):
当前位置的值相等时,我们可以同时去掉两字符串中该相等字符,判断以第 i - 2 位结束的 s 串是否为以 j - 2 位结束的 t 串的子序列,即考虑
dp[i - 1][j -1]
的值。如果以第 i - 2 位结束的 s 串是以 j - 2 位结束的 t 串的子序列,那么两个字符串都加上相等的这一位,就能确定以第 i - 1 位结束的 s 串是否为以 j - 1 位结束的 t 串的子序列;
除此之外,我们也可以仅去掉 t 串中的相同位,判断以第 i - 1 位结束的 s 串是否为以 j - 2 位结束的 t 串的子序列,即考虑
dp[i][j - 1]
。如果以第 i - 1 位结束的 s 串为以 j - 2 位结束的 t 串的子序列,那么当 t 串加上去掉的那一位,该结论依旧成立。
所以当
s[i - 1] == t[j - 1]
时,dp[i][j] = dp[i - 1][j -1] || dp[i][j - 1]
。
- if (s[i - 1] != t[j - 1]):
当 s 串的第 i-1 位不等于 t 串的第 j - 1 位时,我们将t 串的第 j - 1 位“删除”,判断以第 i - 1 位结束的 s 串是否为以 j - 2 位结束的 t 串的子序列,即
dp[i][j] = dp[i][j - 1]
- 综上所述:
- 初始化
- 从递推公式可以看出
dp[i][j]
都是依赖于dp[i - 1][j - 1]
和dp[i][j - 1]
,所以需要对dp[0][0]
、dp[i][0]
和dp[0][j]
是一定要初始化的。而且我们初始化一定要严格按照 dp 数组的定义来:dp[i][j]
表示以第 i - 1 位结束的 s 串是否为以 j - 1 位结束的 t 串的子序列。 - 当 j 为 0 时,以 j - 1 位结束的 t 串为空串,而「任何以第 i - 1 位结束的非空 s 串」不可能是「以 j - 1 位结束的 t 串为空串」的子序列,即
dp[i][0] = false (i != 0)
,而dp[0][0] = true
; - 当 i 为 0 时,以 i - 1 位结束的 s 串为空串,该空串是「任何以第 j - 1 位结尾的 t 串」的子序列,即 `dp[0][j] = true。
// 初始化 dp[0][j] = true, dp[i][0] = false
// 由于boolean数组默认就是false,所以d[i][0]不用单独初始化
for (int j = 0; j <= lent; j++) {
dp[0][j] = true;
}
- 确认遍历顺序
- 从递推公式可以看出
dp[i][j]
都是依赖于dp[i - 1][j - 1]
和dp[i][j - 1]
,那么遍历顺序也应该是从上到下,从左到右
- 举例推导 dp 数组
- 完整代码如下:
public boolean isSubsequence(String s, String t) {
// 特判
if (s == null || s.length() == 0) return true;
if (t == null || t.length() == 0) return false;
int lens = s