正则表达式

正则表达式


正则表达式

1.介绍符号表达的含义
符号代表含义
\d一个数字
\w一个字母或数字
.任意字符
‘py.’可以匹配’pyc’, ‘pyo’, ‘py!’
*任意个字符(含0)
+至少一个字符
?0/1个字符
{n}n个字符
{n,m}n-m个字符
\s一个空格(tab等空白符)
[0-9a-zA-Z_]可以匹配一个数字、字母或者下划线
[0-9a-zA-Z_]+可以匹配至少由一个数字、字母或者下划线组成的字符串
  • [0-9a-zA-Z\_] 可以匹配一个数字、字母或者下划线
  • [0-9a-zA-Z\_]+ 可以匹配至少由一个数字、字母或者下划线组成的字符串
  • A|B 可以匹配A或B
  • (P|p)ython 可以匹配’Python’或者’python’
  • ^ 表示行的开头
  • $ 表示行的结尾
2. re 模块
1.字符串匹配
import re
re.match(r"^\d{3}\-\d{3,8}$", "010-12345")  #match()方法判断是否匹配,如果匹配成功,返回一个Match对象,否则返回None
#<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
re.match(r'^\d{3}\-\d{3,8}$', '010 12345')
#>>>
2.切分字符串
re.split(r"\s+", "a b  c")  #['a', 'b', 'c']
re.split(r"[\s\,]+", "a,b, c  d") #['a', 'b', 'c', 'd']
re.split(r"[\s\,\;]+", "a,b;; c  d") #['a', 'b', 'c', 'd']
3.分组
用()表示的就是要提取的分组 Group
import re
m = re.match(r"^(\d{3})-(\d{3,8})$", "010-12345")
#<_sre.SRE_Match object; span=(0, 9), match='010-12345'>
m.group(0)    #'010-12345', 原始字符串
m.group(1)    #'010'
m.group(2)    #'12345'
m.groups()    #('010', '12345')

如果正则表达式中定义了组,就可以在Match对象上用group()方法提取出子串来。

4.编译
import re
#编译
re_telephone = re.compile(r"^(\d{3})-(\d{3,8})$")
#使用
re_telephone.match("010-12345").groups()    #('010', '12345')
re_telephone.match("010-8086").groups()     #('010', '8086')

如果一个正则表达式要重复使用几千次,出于效率的考虑,我们可以预编译该正则表达式,接下来重复使用时就不需要编译这个步骤了,直接匹配

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值