25、正则表达式深入解析:从基础到高级应用

正则表达式深入解析:从基础到高级应用

1. 输入消耗:正则表达式的工作本质

很多人对正则表达式的理解比较简单,认为它只是“在大字符串中查找子字符串”,就像在干草堆里找针一样。但这种简单的理解会限制我们对正则表达式本质的认识,也不利于将其用于更强大的任务。

实际上,正则表达式是一种用于消耗输入字符串的模式,匹配结果只是这种操作的副产品。为了更好地理解正则表达式的工作方式,我们可以借助一个常见的儿童单词游戏:在字母网格中找单词。

假设游戏的第一行字母是:X J A N L I O N A T U R E J X E E L N P。人类能很快找出 LION、NATURE 和 EEL 等单词,但计算机和正则表达式没那么聪明。下面我们从正则表达式的角度来看这个游戏,既能了解它的工作原理,也能发现一些需要注意的局限性。

为了简化,我们让正则表达式查找 LION、ION、NATURE 和 EEL 这几个单词。正则表达式从第一个字符 X 开始,发现要找的单词都不以 X 开头,就判定“不匹配”,然后移动到下一个字符 J,同样不匹配,再移动到 A。在这个过程中,正则引擎经过的字符被视为已消耗。直到遇到 L,正则引擎会认为“这可能是 LION”,此时不会消耗 L,这是一个重要的点。接着它会依次匹配 I、O、N,确认匹配成功后,就会消耗整个单词 LION。

这里有趣的是,LION 和 NATURE 有重叠部分。人类对此并不困扰,但正则表达式不会回头去已消耗的部分找匹配。所以它找不到 NATURE,因为 N 已经被消耗了,只能找到 ATURE,而这不是它要找的单词。不过,它最终能找到 EEL。

如果把 LION 中的 O 换成 X,会发生什么呢?当正则表达式遇到 L 时,仍会认为可能匹配 LION,不消耗 L,继续到 I 也不消耗。但到 X 时,它会发现不匹配,因为没有以 LIX 开头的单词。这时,它会回到认为有匹配的 L 处,消耗 L 后继续正常移动,这次就能匹配 NATURE 了,因为 N 没有在匹配 LION 时被消耗。

正则表达式“消耗”字符串的一般算法如下:
- 字符串从左到右被消耗。
- 一旦一个字符被消耗,就不会再被访问。
- 如果没有匹配,正则表达式会逐个字符前进,尝试找到匹配。
- 如果有匹配,正则表达式会一次性消耗匹配中的所有字符;如果是全局正则表达式,匹配会继续从下一个字符开始。

这个算法的细节其实更复杂,在某些情况下,如果正则表达式能确定不会有匹配,算法会提前终止。在学习正则表达式的具体语法时,要时刻记住这个算法,想象字符串从左到右逐个字符被消耗,直到找到匹配,然后一次性消耗整个匹配。

2. 交替:解决特定匹配问题

假设我们有一个存储在字符串中的 HTML 页面,想找出所有能引用外部资源的标签,如 、 、 /> 、

学生社团系统-学生社团“一站式”运营管理平台-学生社团管理系统-基于SSM的学生社团管理系统-springboot学生社团管理系统.zip-Java学生社团管理系统开发实战-源码 更多学生社团系统: SpringBoot+Vue学生社团“一站式”运营管理平台源码(活动管理+成员考核+经费审批) Java学生社团管理系统开发实战:SSM升级SpringBoot(招新报名+场地预约+数据看板) 基于SpringSecurity的社团管理APP(移动端签到+权限分级+消息推送) 企业级社团数字化平台解决方案(SpringBoot+Redis缓存+Elasticsearch活动搜索) 微信小程序社团服务系统开发(活动直播+社团文化墙+成员互动社区) SpringBoot社团核心源码(多角色支持+工作流引擎+API接口开放) AI赋能社团管理:智能匹配兴趣标签+活动热度预测+成员贡献度分析(附代码) 响应式社团管理平台开发(PC/移动端适配+暗黑模式+无障碍访问) 完整学生社团系统源码下载(SpringBoot3+Vue3+MySQL8+Docker部署) 高校垂直领域社团平台:百团大战系统+社团星级评定+跨校活动联盟 适用对象:本代码学习资料适用于计算机、电子信息工程、数学等专业正在做毕设的学生,需要项目实战练习的学习者,也适用于课程设计、期末大作业。 技术栈:前端是vue,后端是springboot,项目代码都经过严格调试,代码没有任何bug! 核心管理:社团注册、成员管理、权限分级 活动运营:活动发布、报名签到、场地预约 资源服务:经费申请、物资管理、文档共享 数据分析:成员活跃度、活动效果评估、社团影响力排名
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值