正则表达式
正则表达式的目的在于用一种简单灵活的方法来对文本进行替换、匹配、测试模式及提取字符串
通过学习及参考相关博客,总结一些正则表达式的语法和用法,以做自学阶段性记录和总结
语法
1. compile
函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。
import re
pattern = re.compile("a")
2. re.match
尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
import re
pattern = re.compile("ad")
result = pattern.match("adds")
print(result)
运行结果
<re.Match object; span=(0, 2), match='ad'>
3. re.search
扫描整个字符串并返回第一个成功的匹配。
import re
pattern = re.compile("ad")
result = pattern.search("hjkadds")
print(result)
运行结果
<re.Match object; span=(3, 5), match='ad'>
4. re.sub
用于替换字符串中的匹配项。
re.sub有五个参数
re.sub(pattern, repl, string, count=0, flags=0)
其中三个必选参数:pattern, repl, string
两个可选参数:count, flags
import re
line = "hello 123 world 456"
name = re.sub(r"\d+", "222", line)
print(name)
运行结果
hello 222 world 222
5. re.findall (返回list)
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
result2 = re.findall("Windows(?:95|98|NT|2000|7)", "Windows98")
print(result2)
运行结果
['Windows98']
6. re.finditer(返回迭代器【用于访问集合的方法】)
re.finditer 和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
import re
line = "hello 123 world 456"
result = re.finditer(r"\d+", line)
for match in result
print(match)
print(match.group())
运行结果
<re.Match object; span=(6, 9), match='123'>
123
<re.Match object; span=(16, 19), match='456'>
456
用法
基本语法
需求 | 表达式 |
---|---|
开头 | ^ |
结尾 | $ |
可有可无 | ? |
匹配除\n以外的任意字符 | . |
匹配前字符任意次 | * |
贪婪匹配(匹配除了换行) | .* |
非贪婪匹配(换行符外临近字符) | .*? |
返回包含括号里的值 | (?:pattern) |
返回不包含括号里的值 | (?=pattern) |
只返回不包含括号里的值 | (?!pattern) |
或 | | |
特使意义
符号 | 意义 |
---|---|
\d | [0-9] |
\D | [^0-9] |
\w | [a-zA-Z0-9_] |
\W | [^a-zA-Z0-9_] |
\s | 匹配空白字符 |
\S | 匹配非空白字符 |
以下内容参考链接https://blog.youkuaiyun.com/xjywp2008/article/details/84756515
校验数字的表达式
需求 | 表达式 |
---|---|
数字 | ^[0-9]*$ |
n位的数字 | ^\d{n}$ |
至少n位的数字 | ^\d{n,}$ |
m-n位的数字 | ^\d{m,n}$ |
零和非零开头的数字 | ^(0|[1-9][0-9]*)$ |
非零开头的最多带两位小数的数字 | ^([1-9][0-9]*)+(.[0-9]{1,2})?$ |
带1-2位小数的正数或负数 | ^(-)?\d+(.\d{1,2})?$ |
正数、负数、和小数 | ^(-|+)?\d+(.\d+)?$ |
有两位小数的正实数 | ^[0-9]+(.[0-9]{2})?$ |
有1~3位小数的正实数 | ^[0-9]+(.[0-9]{1,3})?$ |
非零的正整数 | ^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^+?[1-9][0-9]*$ |
非零的负整数 | ^-[1-9][0-9]*$ 或 ^-[1-9]\d*$ |
非负整数 | ^\d+$ 或 ^[1-9]\d*|0$ |
非正整数 | ^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$ |
非负浮点数 | ^\d+(.\d+)?$ 或 ^[1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0$ |
非正浮点数 | ^((-\d+(.\d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d*.\d*|0.\d*[1-9]\d*))|0?.0+|0$ |
正浮点数 | ^[1-9]\d*.\d*|0.\d*[1-9]\d*$ 或 ^(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$ |
负浮点数 | ^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$ 或 ^(-(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*)))$ |
浮点数 | ^(-?\d+)(.\d+)?$ 或 ^-?([1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0)$ |
校验字符的表达式
需求 | 表达式 |
---|---|
汉字 | ^[\u4e00-\u9fa5]{0,}$ |
英文和数字 | ^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$ |
长度为3-20的所有字符 | ^.{3,20}$ |
由26个英文字母组成的字符串 | ^[A-Za-z]+$ |
由26个大写英文字母组成的字符串 | ^[A-Z]+$ |
由26个小写英文字母组成的字符串 | ^[a-z]+$ |
由数字和26个英文字母组成的字符串 | ^[A-Za-z0-9]+$ |
由数字、26个英文字母或者下划线组成的字符串 | ^\w+$ 或 ^\w{3,20}$ |
中文、英文、数字包括下划线 | ^[\u4E00-\u9FA5A-Za-z0-9_]+$ |
中文、英文、数字但不包括下划线等符号 | ^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$ |
可以输入含有^%&’,;=?$\”等字符 | [^%&’,;=?$\x22]+ |
禁止输入含有~的字符 | [^~\x22]+ |
特殊需求表达式
需求 | 表达式 |
---|---|
Email地址 | ^\w+([-+.]\w+)*@\w+([-.]\w+)*.\w+([-.]\w+)*$ |
域名 | [a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.? |
InternetURL | [a-zA-z]+://[^\s]* 或 ^http://([\w-]+.)+[\w-]+(/[\w-./?%&=]*)?$ |
手机号码 | ^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ |
电话号码 | ^($$\d{3,4}-)|\d{3.4}-)?\d{7,8}$ |
国内电话号码 | \d{3}-\d{8}|\d{4}-\d{7} |
身份证号(15位、18位数字) | ^\d{15}|\d{18}$ |
短身份证号码(数字、字母x结尾) | ^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$ |
帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线) | ^[a-zA-Z][a-zA-Z0-9_]{4,15}$ |
密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线) | ^[a-zA-Z]\w{5,17}$ |
强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间) | ^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$ |
日期格式 | ^\d{4}-\d{1,2}-\d{1,2} |
一年的12个月(01~09和1~12) | ^(0?[1-9]|1[0-2])$ |
一个月的31天(01~09和1~31) | ^((0?[1-9])|((1|2)[0-9])|30|31)$ |
xml文件 | ^([a-zA-Z]±?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$ |
中文字符的正则表达式 | [\u4e00-\u9fa5] |
双字节字符 | [^\x00-\xff](包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)) |
空白行的正则表达式 | \n\s*\r (可以用来删除空白行) |
HTML标记的正则表达式 | <(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力) |
首尾空白字符的正则表达式 | ^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式) |
腾讯QQ号 | [1-9][0-9]{4,} (腾讯QQ号从10000开始) |
中国邮政编码 | [1-9]\d{5}(?!\d) (中国邮政编码为6位数字) |
IP地址 | \d+.\d+.\d+.\d+ (提取IP地址时有用) |
IP地址 | ((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d)) |
钱的输入格式 | ^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$ |
正则表达式不同的组合有不同的意义,需要根据自己的需求进行组合,用的时候自查就好,不必深刻掌握,但要看的懂会改