单词拆分
题目概括
给定一个非空字符串 s
和一个包含非空单词的列表 wordDict
,判断是否可以利用字典中的单词(可重复使用)拼接出完整的字符串 s
。无需使用字典中所有单词,只要存在一种拆分方式即可返回 True
,否则返回 False
。
示例:
输入:s = “leetcode”, wordDict = [“leet”, “code”]
输出:True
解释:“leetcode” 可拆分为 “leet” + “code”。
算法思想
本问题采用动态规划(DP)结合记忆化搜索的方法解决。核心思想是将原问题分解为子问题:判断字符串的前缀是否可拆分,并利用已计算的子问题结果避免重复计算。通过预处理字典中最长单词长度,减少不必要的子字符串检查,优化时间复杂度。
算法步骤
-
预处理:
- 计算字典
wordDict
中最长单词的长度max_len
,用于后续剪枝。 - 将
wordDict
转换为集合word
,实现 O(1) 时间复杂度的查询。
- 计算字典
-
动态规划函数定义:
- 定义递归函数
dp(n)
,表示字符串s
的前n
个字符是否可被拆分。 - 使用装饰器
@cache
缓存中间结果,避免重复计算。
- 定义递归函数
-
递归终止条件:
- 当
n == 0
时,空字符串可被拆分,返回True
。
- 当
-
子字符串检查:
- 从位置
n-1
向前遍历,最多遍历max_len
个字符(或到字符串开头)。 - 若子字符串
s[i:n]
存在于字典中,且剩余部分dp(i)
可拆分,则返回True
。
- 从位置
-
遍历剪枝:
- 反向遍历时,仅检查长度不超过
max_len
的子字符串,避免无效检查。
- 反向遍历时,仅检查长度不超过
具体代码
class Solution:
def wordBreak(self, s: str, wordDict: List[str]) -> bool:
# 计算字典中最长单词的长度,用于剪枝
max_len = max(len(x) for x in wordDict) if wordDict else 0
word = set(wordDict) # 转换为集合,O(1)查询
@cache
def dp(n):
if n == 0: # 空字符串可拆分
return True
# 从后往前遍历,最多检查 max_len 长度的子串
for i in range(n-1, max(n - max_len -1, -1), -1):
if s[i:n] in word and dp(i):
return True
return False
return dp(len(s))
复杂度分析
时间复杂度
-
预处理阶段
- 哈希集合构建:需遍历
wordDict
中所有单词字符,时间复杂度为 O(mL),其中 m 是字典单词数,L 是字典中最长单词长度。 - 最长长度计算:遍历字典取最大值的时间为 O(m),可忽略。
- 哈希集合构建:需遍历
-
动态规划阶段
- 状态数量:共有 n 个状态(n 为字符串 s 的长度)。
- 单状态计算:
- 每次从位置
n
向前检查最多 L 个字符(因剪枝限制)。 - 每次检查需生成子字符串
s[i:n]
,时间复杂度为 O(L)(子串长度最大为 L)。 - 哈希集合查询时间复杂度为 O(1),但子串生成耗时占主导。
- 每次从位置
- 总时间复杂度:O(n) 个状态 × O(L) 次检查 × O(L) 子串操作 = O(nL²)。
综上,总时间复杂度为 O(mL + nL²)。
空间复杂度
- 哈希集合存储:存储所有单词的字符,空间复杂度为 O(mL)。
- 递归缓存:记忆化搜索缓存 n 个状态,空间复杂度为 O(n)。
- 总空间复杂度:O(mL + n)。
关键误区
- 子字符串操作代价:Python 切片
s[i:j]
的时间复杂度为 O(j-i),最长需复制 L 个字符。 - 哈希集合存储:集合存储的是字符串对象,占用空间与总字符量成正比(O(mL)),而非单纯单词数量(O(m))。
修正后的复杂度分析更严谨,体现了字符串操作与数据存储的真实开销。