DFS+动态规划 10 正则表达式匹配

给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 ‘.’ 和 ‘*’ 的正则表达式匹配。

‘.’ 匹配任意单个字符
‘*’ 匹配零个或多个前面的那一个元素
所谓匹配,是要涵盖 整个 字符串 s的,而不是部分字符串。

说明:

s 可能为空,且只包含从 a-z 的小写字母。
p 可能为空,且只包含从 a-z 的小写字母,以及字符 . 和 *。
示例 1:

输入:
s = “aa”
p = “a”
输出:
false
解释: “a” 无法匹配 “aa” 整个字符串。
示例 2:

输入:
s = “aa”
p = “a*”
输出:
true
解释: 因为 ‘*’ 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 ‘a’。因此,字符串 “aa” 可被视为 ‘a’ 重复了一次。
示例 3:

输入:
s = “ab”
p = “."
输出:
true
解释: ".
” 表示可匹配零个或多个(’*’)任意字符(’.’)。
示例 4:

输入:
s = “aab”
p = “cab”
输出:
true
解释: 因为 ‘*’ 表示零个或多个,这里 ‘c’ 为 0 个, ‘a’ 被重复一次。因此可以匹配字符串 “aab”。
示例 5:

输入:
s = “mississippi”
p = “misisp*.”
输出:
false

题目解答
字符串匹配问题,存在最优子问题,即可以用动态规划;
dp[i][j]表示s字符串的前i个字符与p字符串的前j个字符是否匹配;
初始状态dp[0][0]=True ,空字符互相匹配
1.若s[i-1]==p[j-1] ,dp[i][j]=True;
2.若是s[i-1]!=p[j-1]则分情况讨论
case1 :p[j-1]=’.’,则可以忽略这一个字符,即dp[i][j]=dp[i-1][j-1]

case2 :p[j-1]=’*’,即要分类 * 的两种情况;
情况1: * 前面的字母为0个时:此时s[i-1]!=p[j-2] , dp[i][j]=dp[i][j-2] ,
代表若p[j-3]与s[i]匹配,则当前也匹配。
情况2: * 代表多个前面的字母,或前面的字母为 ’ . ’
此时s[i-1] == p[i-2] || p[i-2] == ’ . ',
dp[i][j]= dp[i-1][j] # * 看作任意个使用,等于抵消了p[i-1]这个字符
or dp[i][j]=dp[i][j-1] # * 看作一个使用
or dp[i][j]=dp[i][j-2] # *看作0个使用

Python

class Solution:
    def isMatch(self, s: str, p: str) -> bool:
        #动态规划,dp[i][j]保存前面的答案
        dp = [[False] * (len(p) + 2) for _ in range(len(s) + 2)]
        dp[0][0]=True
        s='1'+s
        p='1'+p
        for i in range(1,len(s)+1):
            for j in range(1,len(p)+1):
                #遍历每一个i,j
                #情况1:相同则为i
                if s[i-1]==p[j-1]:
                    dp[i][j]=dp[i-1][j-1]           
                    #第i个数,和第j个数
                #情况2:p[j]为'.',可匹配任意字符串,故于i-1,j-1相同
                if p[j-1]=='.':
                    dp[i][j]=dp[i-1][j-1]
                #情况3:P[j]为'*',可匹配多个或0个j-1的字符串
                if p[j-1]=='*':
                    #分类1:*前面的字母取0时
                    if s[i-1]!=p[j-2]:
                        dp[i][j]=dp[i][j-2]
                    #分类2:*前面的字母不取0时
                    if s[i-1]==p[j-2] or p[j-2]=='.':
                         #前面为字母或'.'
                        dp[i][j]=(bool(dp[i][j-1]) or bool(dp[i-1][j]) or bool(dp[i][j-2]))
                        #*看作单个的用    #*看作任意个数用——则当前i直接取消  #看作空的用
        return dp[len(s)][len(p)]

C++

class Solution {
public:
    bool isMatch(string s, string p) {
        s=" "+s;//防止该案例:""\n"c*"
        p=" "+p;
        int m=s.size(),n=p.size();
        bool dp[m+1][n+1];
        memset(dp,false,(m+1)*(n+1));
        dp[0][0]=true;
        for(int i=1;i<=m;i++){
            for(int j=1;j<=n;j++){
                if(s[i-1]==p[j-1] || p[j-1]=='.'){
                    dp[i][j]=dp[i-1][j-1];
                }
                else if(p[j-1]=='*'){
                    if(s[i-1]!=p[j-2] && p[j-2]!='.')
                        dp[i][j]=dp[i][j-2];
                    else{
                        dp[i][j]=dp[i][j-1] || dp[i][j-2] || dp[i-1][j];
                    }
                }
            }
        }
        return dp[m][n];
    }
};

DFS
*可将前一个字符变为0个或多个;
substr降低了效率;

class Solution {
public:
    bool isMatch(string s, string p) {
        return dfs(s,p);
    }
private:
    bool dfs(string s , string p){
        if(p.empty()) return s.empty();

        bool first_match = !s.empty() && (s[0] == p[0] || p[0]=='.');
                        //s不空,s开头与p开头匹配

        if(p.length()>=2 && p[1] == '*'){ //p的长度大于等于2,p下一个为*
            return dfs(s,p.substr(2))||(first_match&&dfs(s.substr(1),p));
                    //作为0个前面的     //若前一个匹配了,可作为1一个前面的
        }else{
            return first_match && dfs(s.substr(1),p.substr(1));
        }
    }
};

优化:用指针代替substr
注意点:char * 表示的字符串,其末尾为0或’\0’;

class Solution {
public:
    bool isMatch(string s, string p) {
        return dfs(s.c_str(),p.c_str());
    }
private:
    bool dfs(const char* s ,const char * p){
        if(*p==0) return *s==0;

        bool first_match = *s && (*s == *p || *p=='.');
                        //s不空,s开头与p开头匹配

        if(*(p+1) == '*'){ //p的长度大于等于2,p下一个为*
            return dfs(s,p+2)||(first_match&&dfs(s+1,p));
                    //作为0个前面的     //若前一个匹配了,可作为1一个前面的
        }else{
            return first_match && dfs(s+1,p+1);
        }
    }
};
### 正则表达式DFS的相关问题 正则表达式的处理通常涉及两种主要的自动机模型:NFA(非确定有限状态自动机)和DFA(确定有限状态自动机)。虽然题目提到的是DFS(深度优先搜索),但在正则表达式的上下文中,更常见的术语是指代DFA而非DFS。以下是关于如何使用DFA来解析正则表达式以及可能遇到的问题及其解决方案。 #### 1. **Thompson算法** Thompson算法是一种用于将正则表达式转换为NFA的方法。该算法的核心思想是通过一系列基本操作逐步构建NFA的状态图[^3]。例如: - 对于单字符`a`,创建两个状态并连接一条标记为`a`的边。 - 对于组合运算符如`.`、`*`等,则基于子表达式的NFA进一步扩展。 这种构造方式简单直观,但由于其本质是非确定性的,因此在实际应用中可能存在性能瓶颈。 ```python def thompson_regex_to_nfa(regex): stack = [] states = [] for char in regex: if char.isalnum(): # 创建匹配单一字母或数字的基本结构 start, end = create_single_char_state(char) stack.append((start, end)) elif char == '*': # 处理Kleene星号(*)的情况 state_pair = stack.pop() new_start, new_end = add_kleene_star(state_pair[0], state_pair[1]) stack.append((new_start, new_end)) return convert_stack_to_nfa(stack) # 假设函数create_single_char_state() 和add_kleene_star()已定义好 ``` 上述代码片段展示了如何利用栈数据结构实现简单的Thompson算法逻辑。 --- #### 2. **Subset Construction算法** 由于NFA执行效率较低,通常会将其转化为等价的DFA以便更快地完成模式匹配任务。这一过程被称为子集构造法(Subet Construction),它通过对NFA中的每一个可达集合计算ε闭包从而生成新的DFA节点。 然而,在某些极端情况下(比如含有大量嵌套通配符的正则表达式),此转化可能导致指数级增长的现象——即所谓的“爆炸现象”。针对这种情况的一个潜在改进措施是对原始RE进行预处理简化或者采用动态规划技术降低中间阶段产生的冗余路径数量。 --- #### 3. **错误案例分析** 当尝试手动编写或调试这些自动化工具时,开发者经常会碰到一些典型陷阱: - 如果未正确初始化所有必要的辅助变量(像epsilon transitions), 可能会出现类似于 `java.lang.NoSuchMethodError` 的异常情况[^1]. 这表明当前使用的库版本之间存在兼容性差异. - 数据库查询语句拼接不当也可能引发语法层面的冲突, 类似於MySQL提示的信息:`check the manual...near 'OPTION...'` [^2]. 以上两类问题是完全不同的领域范畴内的表现形式, 却都提醒我们在开发过程中要格外注意依赖管理及SQL字符串的安全转义等问题. --- #### 总结建议 对于希望深入研究正则引擎内部机制的朋友来说, 掌握从理论到实践各个环节的知识是非常重要的. 不仅如此, 当面临具体应用场景下的特殊需求调整时, 更需灵活运用所学原理去设计高效的解决方案.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值