1、初识正则表达式
re 模块使Python语言拥有全部的正则表达式的功能
re.findall(正则表达式, 所要查找的字符串) :在字符串中找到正则表达式所匹配的所有字串,并返回一个列表,如果没有找到匹配的,则返回一个空列表
实例:
import re
a = 'C|C++|Java|C#|Python|Javascript|Python'
r = re.findall('Python', a)
print(r) # ['Python', 'Python']
2、正则表达式的一些使用
- 普通字符 和 元字符
- 字符集
- 数量词
- 贪婪 与 非贪婪模式 默认贪婪
- 边界匹配
- 组
- 模式参数
实例:
import re
a = 'C|C++|Java|C#|Python|Javascript|Python'
r = re.findall('Python', a)
print(r) # ['Python', 'Python']
# 元字符
a = 'C0C++9Java7C#6Python4Javascript'
x = re.findall('\d', a) # \d 匹配所有的数字
print(x) # ['0', '9', '7', '6', '4']
x = re.findall('\D', a) # \D 匹配所有的非数字
print(x) # ['C', 'C', '+', '+', 'J', 'a', 'v', 'a', 'C', '#', 'P', 'y', 't', 'h', 'o', 'n', 'J', 'a', 'v', 'a', 's', 'c', 'r', 'i', 'p', 't']
# 字符集
s = 'abc, acc, adc, aec, afc, ahc'
r = re.findall('a[cf]c', s) # ['acc', 'afc']
r = re.findall('a[^cf]c', s) # ['abc', 'adc', 'aec', 'ahc']
r = re.findall('a[c-h]c', s) # ['acc', 'adc', 'aec', 'afc', 'ahc']
print(r)
# 数量词
a = 'python 1111java678php'
r = re.findall('[a-z]{3,6}', a) # 区间取值,最少3个,最多6个
print(r) # ['python', 'java', 'php']
# 贪婪 与 非贪婪 默认贪婪
a = 'python 1111java678php'
r = re.findall('[a-z]{3,6}?', a) # 取消贪婪模式
print(r) # ['pyt', 'hon', 'jav', 'php']
# 数量词2
# * 匹配0次或者无限多次
# + 匹配1次或者无限多次
# ? 匹配0次或者1次(跟在区间后面则表示取消贪婪模式)
a = 'pytho0python1pythonn2'
r = re.findall('python*', a) # ['pytho', 'python', 'pythonn']
r = re.findall('python+', a) # ['python', 'pythonn']
r = re.findall('python?', a) # ['pytho', 'python', 'python']
print(r)
# 边界匹配 ^(首) $(尾)
qq = '100000001' # 9位
r = re.findall('^\d{4,8}$', qq)
print(r) # []
# 组
a = 'PythonPythonPythonPythonPython'
r = re.findall('(Python){3}', a)
print(r) # ['Python']
# 模式参数
language = 'PythonC#\nJavaPHP'
r = re.findall('c#.{1}', language, re.I | re.S) # re.I 不区分大小写 # re.S 让.可以匹配所有字符
print(r) # ['C#\n']
3、re.sub 正则替换
语法:
re.sub(pattern, repl, string, count=0, flags=0)
参数:
pattern : 正则中的模式字符串。
repl : 替换的字符串,也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式,数字形式。
前三个为必选参数,后两个为可选参数
实例:
l = 'PythonC#JavaC#PHPC#'
def convert(value):
matched = value.group()
return '!!' + matched + '!!'
r = re.sub('C#', 'GO', l) # PythonGOJavaGOPHPGO
r = re.sub('C#', 'GO', l, 1) # PythonGOJavaC#PHPC#
r = re.sub('C#', convert, l) # Python!!C#!!Java!!C#!!PHP!!C#!!
print(r)
s = 'A8C3721D86'
def convert1(value):
matched = value.group()
if int(matched) >= 6:
return '9'
else:
return '0'
r = re.sub('\d', convert1, s)
print(r) # A9C0900D99
4、re.match 与 re.search
re.match(pattern, string, flags=0) 从字符串的起始位置匹配,如果不是起始位置匹配成功的话,就返回None
re.search(pattern, string, flags=0) 扫描整个字符串并返回第一个成功的匹配
两者返回的都是对象
两者都只匹配一次
结果.group() 可以返回匹配到的结果
结果.span() 可以返回到匹配的位置
实例:
s = 'A8C3721D86'
r = re.match('\d', s)
print(r) # None
r1 = re.search('\d', s)
print(r1) # <re.Match object; span=(1, 2), match='8'>
print(r1.span()) # (1, 2)
print(r1.group()) # 8
5、group和groups
实例:
s = 'life is short,i use python, i love python'
r = re.search('life(.*)python(.*)python', s)
print(r.group(0, 1, 2)) # ('life is short,i use python, i love python', ' is short,i use ', ', i love ')
print(r.groups()) # (' is short,i use ', ', i love ')
9万+

被折叠的 条评论
为什么被折叠?



