python中的正则表达式

正则表达式

正则表达式的目的在于用一种简单灵活的方法来对文本进行替换、匹配、测试模式及提取字符串
通过学习及参考相关博客,总结一些正则表达式的语法和用法,以做自学阶段性记录和总结

语法

1. compile

函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用。

import re
pattern = re.compile("a") 

2. re.match

尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。

import re
pattern = re.compile("ad")
result = pattern.match("adds")
print(result)

运行结果

<re.Match object; span=(0, 2), match='ad'>

3. re.search

扫描整个字符串并返回第一个成功的匹配。

import re
pattern = re.compile("ad")
result = pattern.search("hjkadds")
print(result)

运行结果

<re.Match object; span=(3, 5), match='ad'>

4. re.sub

用于替换字符串中的匹配项。
re.sub有五个参数
re.sub(pattern, repl, string, count=0, flags=0)
其中三个必选参数:pattern, repl, string
两个可选参数:count, flags

import re
line = "hello 123 world 456"
name = re.sub(r"\d+", "222", line)
print(name)

运行结果

hello 222 world 222

5. re.findall (返回list)

在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。

result2 = re.findall("Windows(?:95|98|NT|2000|7)", "Windows98")
print(result2)

运行结果

['Windows98']

6. re.finditer(返回迭代器【用于访问集合的方法】)

re.finditer 和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。

import re
line = "hello 123 world 456"
result = re.finditer(r"\d+", line)
for match in result
    print(match)
    print(match.group())

运行结果

<re.Match object; span=(6, 9), match='123'>
123
<re.Match object; span=(16, 19), match='456'>
456

用法

基本语法

需求表达式
开头^
结尾$
可有可无
匹配除\n以外的任意字符.
匹配前字符任意次*
贪婪匹配(匹配除了换行).*
非贪婪匹配(换行符外临近字符).*?
返回包含括号里的值(?:pattern)
返回不包含括号里的值(?=pattern)
只返回不包含括号里的值(?!pattern)
|

特使意义

符号意义
\d[0-9]
\D[^0-9]
\w[a-zA-Z0-9_]
\W[^a-zA-Z0-9_]
\s匹配空白字符
\S匹配非空白字符

以下内容参考链接https://blog.youkuaiyun.com/xjywp2008/article/details/84756515

校验数字的表达式

需求表达式
数字^[0-9]*$
n位的数字^\d{n}$
至少n位的数字^\d{n,}$
m-n位的数字^\d{m,n}$
零和非零开头的数字^(0|[1-9][0-9]*)$
非零开头的最多带两位小数的数字^([1-9][0-9]*)+(.[0-9]{1,2})?$
带1-2位小数的正数或负数^(-)?\d+(.\d{1,2})?$
正数、负数、和小数^(-|+)?\d+(.\d+)?$
有两位小数的正实数^[0-9]+(.[0-9]{2})?$
有1~3位小数的正实数^[0-9]+(.[0-9]{1,3})?$
非零的正整数^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^+?[1-9][0-9]*$
非零的负整数^-[1-9][0-9]*$ 或 ^-[1-9]\d*$
非负整数^\d+$ 或 ^[1-9]\d*|0$
非正整数^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
非负浮点数^\d+(.\d+)?$ 或 ^[1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0$
非正浮点数^((-\d+(.\d+)?)|(0+(.0+)?))$ 或 ^(-([1-9]\d*.\d*|0.\d*[1-9]\d*))|0?.0+|0$
正浮点数^[1-9]\d*.\d*|0.\d*[1-9]\d*$ 或 ^(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*))$
负浮点数^-([1-9]\d*.\d*|0.\d*[1-9]\d*)$ 或 ^(-(([0-9]+.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*.[0-9]+)|([0-9]*[1-9][0-9]*)))$
浮点数^(-?\d+)(.\d+)?$ 或 ^-?([1-9]\d*.\d*|0.\d*[1-9]\d*|0?.0+|0)$

校验字符的表达式

需求表达式
汉字^[\u4e00-\u9fa5]{0,}$
英文和数字^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
长度为3-20的所有字符^.{3,20}$
由26个英文字母组成的字符串^[A-Za-z]+$
由26个大写英文字母组成的字符串^[A-Z]+$
由26个小写英文字母组成的字符串^[a-z]+$
由数字和26个英文字母组成的字符串^[A-Za-z0-9]+$
由数字、26个英文字母或者下划线组成的字符串^\w+$ 或 ^\w{3,20}$
中文、英文、数字包括下划线^[\u4E00-\u9FA5A-Za-z0-9_]+$
中文、英文、数字但不包括下划线等符号^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
可以输入含有^%&’,;=?$\”等字符[^%&’,;=?$\x22]+
禁止输入含有~的字符[^~\x22]+

特殊需求表达式

需求表达式
Email地址^\w+([-+.]\w+)*@\w+([-.]\w+)*.\w+([-.]\w+)*$
域名[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
InternetURL[a-zA-z]+://[^\s]* 或 ^http://([\w-]+.)+[\w-]+(/[\w-./?%&=]*)?$
手机号码^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
电话号码^($$\d{3,4}-)|\d{3.4}-)?\d{7,8}$
国内电话号码\d{3}-\d{8}|\d{4}-\d{7}
身份证号(15位、18位数字)^\d{15}|\d{18}$
短身份证号码(数字、字母x结尾)^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线)^[a-zA-Z][a-zA-Z0-9_]{4,15}$
密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线)^[a-zA-Z]\w{5,17}$
强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间)^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
日期格式^\d{4}-\d{1,2}-\d{1,2}
一年的12个月(01~09和1~12)^(0?[1-9]|1[0-2])$
一个月的31天(01~09和1~31)^((0?[1-9])|((1|2)[0-9])|30|31)$
xml文件^([a-zA-Z]±?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]$
中文字符的正则表达式[\u4e00-\u9fa5]
双字节字符[^\x00-\xff](包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
空白行的正则表达式\n\s*\r (可以用来删除空白行)
HTML标记的正则表达式<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)
首尾空白字符的正则表达式^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
腾讯QQ号[1-9][0-9]{4,} (腾讯QQ号从10000开始)
中国邮政编码[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
IP地址\d+.\d+.\d+.\d+ (提取IP地址时有用)
IP地址((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
钱的输入格式^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

正则表达式不同的组合有不同的意义,需要根据自己的需求进行组合,用的时候自查就好,不必深刻掌握,但要看的懂会改

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值