四、正则表达式
正则表达式就是记录文本规则的代码
在python中使用正则表达式需要先导入re模块
4.1匹配单个字符
如:match_obj = re.match("t.o", "two")
if match_obj:
# 获取匹配结果
print(match_obj.group())
else:
print("匹配失败")
4.2匹配多个字符
4.3匹配开头结尾
4.4匹配分组
如:
# <html><h1>www.itcast.cn</h1></html>
match_obj = re.match("<([a-zA-Z1-6]+)><([a-zA-Z1-6]+)>.*</\\2></\\1>", "<html><h1>www.itcast.cn</h1></html>")
if match_obj:
print(match_obj.group())
else:
print("匹配失败")
4.5re模块的高级用法
(1)search
根据正则表达式查找指定数据,只查找一次结果
格式:re.search("正则表达式",“要匹配的字符串”)
(2)findall
根据正则表达式查找指定数据,会全部查找,会返回一个结果列表
格式:re.findall("正则表达式","要匹配的字符串")
(3)sub
根据正则表达式查找指定数据,将匹配到的数据进行替换,默认会全部替换,可用count=num进行指定替换次数
格式:re.sub("正则表达式","替换后的数据","要匹配的字符串",count=1)
如:
# match_obj-》 sub函数匹配完成以后会自动传入该参数
def add(match_obj):
# 获取匹配结果
value = match_obj.group()
result = int(value) + 1
# 返回数据类型必须是字符串
return str(result)
value = re.sub("\d+", add, "阅读数:11")
print(value)
(4)split
根据正则表达式匹配,进行切割字符串,并返回一个列表,默认全部分割,可用maxsplit=num进行指定分割次数
格式:re.split("正则表达式", "要匹配的字符串", maxsplit=1)
4.6贪婪和非贪婪
(1)贪婪:根据正则表达式尽量多匹配数据,python里面正则默认是贪婪的
提示:如果以后开发过程中使用正则匹配数据比预想的数据要多,要想到非贪婪模式
(2)非贪婪:根据正则表达式尽量少匹配数据
提示:?后面的数据不跟前面的正则表达式匹配,留给后面的代码进行匹配
如:
match_obj = re.search(r"https?://.*?\.jpg", my_str)
if match_obj:
# 获取匹配结果对象
print(match_obj.group())
else:
print("匹配失败")
4.7r的作用
r:表示原始数据,不需要对反斜杠进行转义,r里面的反斜杠是一个真正反斜杠
建议:以后使用正则表达式可以统一加上r
转义字符:用\来对字符进行转义,如想查找*,就得写成\*