正则表达式使用总结

 

实例

匹配年月日^([0-9]{3}[1-9]|[0-9]{2}[1-9][0-9]{1}|[0-9]{1}[1-9][0-9]{2}|" + "[1-9][0-9]{3})(((0[13578]|1[02])(0[1-9]|[12][0-9]|3[01]))|" + "((0[469]|11)(0[1-9]|[12][0-9]|30))|(02(0[1-9]|[1][0-9]|2[0-8])))$
匹配中文[\u4e00-\u9fa5]

匹配双字节字符,包括中文

注意:在esline规范中正则不能使用控制字符,改为[^\x20-\xff]

[^\x00-\xff]
匹配<>里的内容(包括<>)<[\s\S]*?>
匹配<>里的内容(在safari浏览器会报错)(?<=<)(.+?)(?=>)
匹配html标签<(\S*?)[^>]*>.*?</\1>|<.*? />
匹配<tr ...>|<th...>|<div...>|<span...>|<i...>,使用$1替换成<tr>|<th>|<div>|<span>|<i><(tr|th|div|span|i)(\s{0}|(\W+[\s\S]*?))>
匹配0到6的正整数^[0-6]$
匹配时间(时分),待完善([下上中]午|晚上|半夜){0,1}([01]{0,1}[0-9]|2[01234]|十{0,1}[一二三四五六七八九]|二十[一二三]{0,1})[::点]([一刻|半]|[0-5]{0,1}[0-9]分{0,1}|([零一二三四五]{0,1}十{0,1}[一二三四五六七八九]{0,1}分{0,1})|([一二三四五六七八九]{0,1}分{0,1})){0,1}

匹配HTML

匹配出html中的所有内容\s*([^\s"'<>\/=]+)(?:\s*(=)\s*(?:"([^"]*)"+|'([^']*)'+|([^\s"'=<>`]+)))?
html匹配
html匹配实例
匹配tag的开始<((?:[a-zA-Z_][\w\-\.]*\:)?[a-zA-Z_][\w\-\.]*)
匹配tag的结束<\/((?:[a-zA-Z_][\w\-\.]*\:)?[a-zA-Z_][\w\-\.]*)[^>]*>

特殊字符

[]

范围描述符,表示在它里面 包含的单个字符不限顺序的出现

当需要在[]中匹配时[]可以使用\]转义],而[不需要在字符集内转义。
()

组,主要应用在限制多选结构的范围/分组/捕获文本/环视/特殊模式处理。用于标记一个子表达式的开始和结束位置,提取匹配字符串供以后使用,表达式中有几个()就有几个相应的匹配字符串。要匹配这些字符,请使用\(和\)

缺点:相关的匹配会被缓存,可用?:放在第一个()前来消除这个副作用

例:

(abc|bcd|cde):表示是abc、bcd、cde三者之一,顺序也必须一致;

$匹配输入字符串的结尾位置。如果设置了RegExp对象的Multiline属性,则$也匹配\n或\r。匹配$字符,使用\$
^匹配输入字符串的开始位置,除非在[]方括号表达式中使用,此时它表示不接受该字符集合。匹配^字符,使用\^
限定符
.可以匹配除\n和\r之外的任意单个字符,要匹配包括\n和\r在内的任何字符,使用[\s\S]这样的模式

.在[]中括号表达式时只会匹配.字符(等价于\.)

?匹配前面的子表达式0次或1次(等价于{0,1}),或指明一个非贪婪限定符。要匹配?字符,使用\?
*匹配前面的子表达式0次或多次(等价于{0,})。要匹配*,使用\*
+匹配前面的子表达式1次或多次(等价于{1,})。要匹配+,使用\+

*、+限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。

例:

字符串:<h1>这是一个贪婪匹配测试</h1>

贪婪:/<.*>/  ➡️<h1>这是一个贪婪匹配测试</h1>

非贪婪:/<.*?>/    ➡️<h1>、</h1>

其它:/<\w?>/    ➡️<h1>

定位符
  
非打印字符
\s匹配空格、换行、tab缩进等所有的空白,而\S刚好相反,这样一正一反下来,就表示所有的字符。所有的组合都是相应的,有[\w\W]等意义完全相同
\w匹配字母或数字或下划线或汉字(等价于[A-Za-z0-9_])
\b匹配一个字边界,即字与空格间的位置
\B非字边界匹配
非捕获元之一

前景提要:

(pattern):匹配pattern并获取这一匹配,所获取的匹配可以从产生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中则使用$0...$9属性。

(?:pattern)匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储使用。

在使用或字符|来组合一个模式的各个部分是很有用。例:

industr(?:y|ies)    是一个比 industry|industries    更简略的表达式

(?=pattern)正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说该匹配不需要获取供以后使用。

例:

windows(?=95|98|NT|2000)    能匹配windows2000中的    更简略的表达式

预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配只够立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值