《精通正则表达式》学习笔记——第1章:正则表达式入门

本文介绍了正则表达式的基础知识,包括字符组、排除型字符组、多选结构、量词等内容,并通过实例展示了如何使用正则表达式进行文本处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

学习书籍是中文第三版《精通正则表达式》,作者:(美国)佛瑞德 (Friedl.J.E.F) 译者:余晟

第1章:正则表达式入门

正则表达式是强大便捷高效的文本处理工具,可以对文本进行增加,删除,分离,叠加,插入和修整各种类型的文本和数据。

提出一个例子:在多个文件中确保每一行中‘setSize()’和‘resetSize()’的次数一样多,考虑大小写,如果行数有几万行,明显就不适合采用文本查找的办法去做。

小例子:

  • ^cat$匹配只包含cat的行
  • ^$匹配空行

1.1 字符组[]

  • 字符组(Character Classes)在方括号[]中用来匹配期望的单个字符,[]中存放多个字母如[abcdef]就是匹配adcdef中任意字符
  • 字符组元字符如-连字符,如[0-9]就是匹配0-9数字任一个,
    • ”-“允许多重位置,如[0-9a-zA-Z]
    • “-“是看位置的,如果不在字符组内部,如[-09],[az-],那”-“就是一个普通的连字符号
  • 在字符组中正则元字符如?,.,!都会被当做普通字符处理。
    • 比如正则表达式a..b就是要匹配开头是a,结尾是b,中间两任意字符的字符串,而在正则表达式 [a..b]中就是要匹配字符串”a..b”而已,这里的.被当成了普通字符。

1.2 排除型字符组^

  • ^是脱字符的意思,如果用在字符组中作用就是排除某些字符
  • [^1-6]匹配1至6以外的字符
  • q[^u]匹配开头是q,第二个字母除了u的字符串,排除型字符组也要匹配一个字符(注意:空格也算字符,但是回车符可能会被egrep这样的命令过滤掉),所以若一行中只有这一个词sdhq是不能被匹配的

1.3 用点号.匹配任意字符

03.19.76可匹配03/19/76或者03-19-76或03.19.76
但也可以使用03[./-]19[./-]76更精确些

1.4 多选结构|

  • gr(a|e)y匹配gray或者grey,字符组gr[ae]y也匹配gray或者grey,但是含义是不同的,字符组只匹配单个字符,多选结构会匹配完整的正则表达式
  • gr(ee|ai)ngr[aei]n
  • ^(From|Subject|Date):就是匹配如From:tom Subject:this Data:2016的文本信息
  • 忽略大小写egrep -i

1.5 单词分界符

单词分解符\<,\>,\b,不同于^$,他们是检索行的起始位置,结束位置。

  • \<检索单词的开始位置,\>检索单词的结束位置,如grep '\<sad\>' reg.md就是检索reg.md里面的sad单词所在行并高亮显示
  • \b单词边界,如grep '\bsad\b' reg.md也是检索单词sad所在行并高亮显示
  • \B非单词边界,比如要检索单词中包含sa,可如下:grep 'sa\B' 那么诸如sad,sand等都会被匹配

1.6 量词:可选项元素?

  • colou?r匹配color和colour,元字符?代表可选项,加在一个字符后表示可以出现这个字符或者不出现,也可以加在一个括号后,表示该括号内的整体都是可选的
  • 匹配7月4日的文本,月份可写成July、Jul,日期可写成fourth、4t、4,表达式可写成(July|Jul) (fourh|4th|4)July? (fourh|4(th)?)

1.7 量词:重复出现*``+

  • *表示之前紧邻的元素出现0次或者更多次。记忆方法:*轮廓是圆的所以是0到多次,+中间是个1所以是1到多次,

  • +表示之前紧邻的元素出现1次或更多次,

  • 例如匹配1个以上空格的表达式egrep '<tag +type' reg.md,当然空格也可以写\s,检索结果是
<tag type='button' />
<tag  type='input' />
  • 这在寻找html标签时候非常重要,因为不知道用户会放置多少个空格
    比如匹配<HR size=1>其中的size属性是可选的中间的空格会出现任意的情况,可以写这样的表达式,为了让空格能显示,使用\s来表示空格<HR\s+(size\s*=\s*[0-9]\s*)?\s*>

1.8 规定重现次数发范围:区间

  • {min,max}[0-9]{0,9}匹配0到9个数字
  • {次数},如[0-9]{4}匹配4个数字
  • {min,}[0-9]{4,}匹配4个以上的数字

1.9括号及反向引用

  • 括号已知有两种作用
    • 限制多选项的范围;如(option|opt)
    • *+?等量词的作用;如start(ed)*
  • 括号的第三种作用:反向引用
    • 反向引用是正则表达式的一种特性,它允许我们匹配与表达式先前部分匹配的同样的文本;
    • 如寻找重复单词the the可以写表达式\<the +the\>,但是如果要穷举所有重复的单词呢?采用如下([A-Za-z]) +\1,其中\1表示的是第一个括号()内的内容,以此内推\2,\3表示第二个,第三个括号内内容

1.10 转义

  • 元字符小结:以上内容主要学到的元字符有字符组[]、连字符(只有在字符组合适位置才是连字符)-、排除字符(字符组内)或者脱字符(字符组外)^、单词分解符\< \> \b \B、量词字符* + ? {},括号(),点号.
  • 如果需要匹配的字符是元字符本身,那么就需要采用转义字符\,如\.那么就是匹配点本身;转义字符适用所有元字符,但在字符组内无效
  • \加上非元字符,可能组成特定的元字符序列,如\<
  • \加上任意其他字符,默认情况就是匹配此字符(即\被忽略了)

1.11 基础知识扩展

  • 我们要关注支持正则表达式的编程语言的差异
  • 匹配符合要求的文本,同时忽略符合要求的文本
  • 匹配变量名(变量名常见规定是由字母,数字,下划线组成,不能以数字开头,假设限定长度32字符),表达式:[a-zA-Z_][a-zA-Z0-9_]{0,31}
  • 匹配引号内的字符串,表达式:"[^"]*";如果可以是单引号:('|")[^"]*\1
  • 匹配美元金额,表达式粗糙版($开头,小数点后可跟两位)\$[0-9]+(\.[0-9][0-9])?
  • HTML/HTTP URL 表达式粗糙版:\<http://[-a-z0-9_.:]+/[-a-z0-9:@&?=+,.!/~*%$]*\.html\>
  • HTML Tag 表达式粗糙版:<.*>
  • 表示时刻;如”9:17 am“或者”12:30 pm“,十二小时制表达式:(1[012]|[1-9]):([0-5][0-9]) (am|pm) 二十四小时制:(0?[0-9]|1[0-9]|2[0-3]):[0-5][0-9] (am|pm) 其中0?[0-9]|1[0-9]可合并为[01]?[0-9]
  • *
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值