小白IT:万能正则-Python中的正则是怎么玩的,我们一起看看

本文深入讲解正则表达式的基础概念与规则,包括字符组、元字符、量词等,并详细介绍Python中re模块的使用方法,如findall、search、match等函数的应用,以及分组、贪婪与非贪婪匹配的概念。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 正则表达式*

1 正则表达式概念

概念:匹配字符串内容的一种规则

官方定义:正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

正则表达式在线测试工具http://tool.chinaz.com/regex/

注意:正则表达式只与字符串相关

不管以后你是不是去做python开发,只要你是一个程序员就应该了解正则表达式的基本使用。如果未来你要在爬虫领域发展,你就更应该好好学习这方面的知识。
但是你要知道,re模块本质上和正则表达式没有一毛钱的关系。re模块和正则表达式的关系 类似于 time模块和时间的关系
你没有学习python之前,也不知道有一个time模块,但是你已经认识时间了 12:30就表示中午十二点半(这个时间可好,一般这会儿就该下课了)。
时间有自己的格式,年月日时分秒,12个月,365......已经成为了一种规则。你也早就牢记于心了。time模块只不过是python提供给我们的可以方便我们操作时间的一个工具而已

2.正则表达式的规则:

字符组**:

[] 描述的是一个字符位置上的内容规则(更灵活)

字符组 : [字符组]
在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示
字符分为很多类,比如数字、字母、标点等等。
假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0、1、2...9这10个数之一。

注意点:

[0-9],[5-9],[a-z],[A-Z]不能从大到小规定范围,

字符组内所有的范围是根据ascii码来确定的

字符组中,-是有特殊意义的,取消特殊意义,需要使用\转义

非字符组:

[^] 匹配非括号内的所有内容

如:[^123]:匹配非数字123的所有

元字符:
元字符匹配内容
.匹配除换行符以外的任意字符
\w匹配字母或数字或下划线
\s匹配任意的空白符
\d匹配数字
\n匹配一个换行符
\t匹配一个制表符
\b匹配一个单词的结尾
^匹配字符串的开始
$匹配字符串的结尾
\W匹配非字母或数字或下划线
\D匹配非数字
\S匹配非空白符
a|b匹配字符a或字符b
()匹配括号内的表达式,也表示一个组
[…]匹配字符组中的字符
[^…]匹配除了字符组中字符的所有字符
量词:
量词用法说明
*重复零次或更多次
+重复一次或更多次
?重复零次或一次
{n}重复n次
{n,}重复n次或更多次
{n,m}重复n到m次

3.分组 () 和 或 |**

如:www.(baidu|oldboy).com

分组 ()

使用场景:

  • 一组内容,需要整体约束出现次数的时候。
  • 在和 " | " 连用的时候,前后固定,中间位置二选一。
正则待匹配字符匹配 结果说明
1\d{13,16}[0-9x]$110101198001017032110101198001017032表示可以匹配一个正确的身份证号
2\d{13,16}[0-9x]$11010119800101701101011980010170表示也可以匹配这串数字,但这并不是一个正确的身份证号码,它是一个16位的数字
3\d{14}(\d{2}[0-9x])?$1101011980010170False现在不会匹配错误的身份证号了()表示分组,将\d{2}[0-9x]分成一组,就可以整体约束他们出现的次数为0-1次
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$110105199812067023110105199812067023表示先匹配[1-9]\d{16}[0-9x]如果没有匹配上就匹配[1-9]\d{14}

4.贪婪与非贪婪匹配**

在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配

贪婪匹配:比如匹配 a.*x
  • 利用的是回溯算法:从a开始匹配,一直匹配任意字符,无论是否为x,匹配完所有字符后,发现 * 后面有个x,又回过头来找x,找到x就立即停止
待匹配字符匹配 结果说明
<.*>
非贪婪匹配

在满足匹配时,匹配尽可能少的字符串,需要在量词后面使用问号。

非贪婪匹配:a.*?x

  • 从a开始匹配,匹配任意长度字符,?的作用是时刻检查下一个字符是否为x,如果是x则立马停止。
非贪婪匹配pattern
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复
.*?的用法
. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式。
何在一起就是 取尽量少的任意字符,一般不会这么单独写,他大多用在:
.*?x
就是取前面任意长度的字符,直到一个x出现

5.转义符 **

在python中,无论是正则表达式,还是待匹配的内容,都是以字符串的形式出现的,在字符串中\也有特殊的含义,本身还需要转义。所以如果匹配一次"\n",字符串中要写成’\n’,那么正则里就要写成"\\n",这样就太麻烦了。这个时候我们就用到了r’\n’这个概念,此时的正则是r’\n’就可以了。

正则待匹配字符匹配 结果说明
\n\nFalse因为在正则表达式中\是有特殊意义的字符,所以要匹配\n本身,用表达式\n无法匹配
\n\nTrue转义\之后变成\\,即可匹配
“\\n”‘\n’True如果在python中,字符串中的'\'也需要转义,所以每一个字符串'\'又需要转义一次
r’\n’r’\n’True在字符串之前加r,让整个字符串不转义

二、re模块*

1.re模块常用方法*

flags有很多可选值:
    re.I(IGNORECASE)忽略大小写,括号内是完整的写法
    re.M(MULTILINE)多行模式,改变^和$的行为
    re.S(DOTALL)点可以匹配任意字符,包括换行符
    re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用
    re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
    re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释
  • re.finditer(regex,str): 返回一个迭代器,存储了所有’结果对象’,遍历后迭代器获得每一个结果对象,对每个结果对象使用.group()方法取值
  • re.sub(regex,new,str): 返回一个替换后的字符串
  • re.subn(regex,new,str): 返回替换后的字符串,和替换的次数
  • re.split(regex,str): 返回一个列表,根据正则匹配内容分割。

2.re模块详细使用

import re

ret = re.findall('a', 'eva egon yuan')  # 返回所有满足匹配条件的结果,放在列表里
print(ret) #结果 : ['a', 'a']

ret = re.search('a', 'eva egon yuan').group()
print(ret) #结果 : 'a'
# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以
# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配,则返回None。

ret = re.match('a', 'abc').group()  # 同search,不过尽在字符串开始处进行匹配
print(ret)
#结果 : 'a'

ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(ret)  # ['', '', 'cd']

ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H',参数1表示只替换1个
print(ret) #evaHegon4yuan4

ret = re.subn('\d', 'H', 'eva3egon4yuan4')#将数字替换成'H',返回元组(替换的结果,替换了多少次)
print(ret)

'''
节省时间角度上
# re.compile() 预编译
# 参数:pattern,flags
使用原因:re.findall('\d+','asdfasd2131')
每次findall计算机都需要去解析'\d+',如果有n个待匹配的字符串,那就需要计算机解析n次'\d+',这个时候我们需要将'\d+'这个正则规则进行预编译,在以后每次查找时,直接拿已经编译后的代码,可以节省大量程序执行的‘时间’。
'''
obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象,规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search,参数为待匹配的字符串
print(ret.group())  #结果 : 123

'''
节省空间上
# re.finditer()
    返回一个存储了'结果对象'的迭代器,取值的时候需要遍历后在对每个结果对象使用.group()方法
    当使用findall找到的结果数量巨大的时候,返回的结果会很占用内存,这个时候我们就需要使用finditer
'''
import re
ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #查看第一个结果
print(next(ret).group())  #查看第二个结果
print([i.group() for i in ret])  #查看剩余的左右结果

3.re方法小结

'''
re方法总结:
匹配:
    findall
    search match 返回结果对象,用.group()取值
字符串的其他处理:不常用
    替换
    分割

进阶:
    时间上:使用compile预编译,能够提前编译一个正则表达式,当同一个正则需要多次使用的时候,可以节省时间。
    空间上:使用finditer返回一个迭代器,里面是一个一个结果结果对象,通过对结果对象.group取到每个值
'''

4.re模块的使用*

1.分组在findall当中默认会优先显示出来
2.在分组中开始加上 ?: 可以取消分组优先的设定
在爬虫\数据清洗的过程中最常用的正则表达式操作

s = '''
<h1>hahaha</h1>
<h2>wahaha</h2>
<title>qqxing</title>
'''

'>(\w+)<'
ret = re.findall('>(\w+)<',s)
print(ret)  # findall永远优先显示分组中的内容
# ['hahaha', 'wahaha', 'qqxing']


# 分组优先显示会遇到如下问题:找到所有数字,会把括号内优先返回,导致提取信息不符要求
ret = re.findall('\d+(\.\d+)?','1.23+2.34')
print(ret)  # ['.23', '.34']
'''
取消分组优先
    在不想分组的括号开头加上 ////?: ////可以取消分组优先显示的问题
'''
ret = re.findall('\d+(?:\.\d+)?','1.23+2.34')
print(ret)  # ['1.23', '2.34']

5.split和分组:

如果被用来分割的内容在分组中,则保留这个内容。

ret=re.split("\d+","eva3egon4yuan")
print(ret) #结果 : ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #结果 : ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上()之后所切出的结果是不同的,
#没有()的没有保留所匹配的项,但是有()的却能够保留了匹配的项,
#这个在某些需要保留匹配部分的使用过程是非常重要的。

6.search和分组:

search返回的结果不收分组的影响,但是可以通过序号索引分组内容,0代表所有组,1代表第一组,一次顺延

ret = re.search(r'<(\w+)>(\w+)</(\w+)>',r'<title>qqxing</title>')
print(ret.group())  # 不写默认是0,取全部
print(ret.group(1))
print(ret.group(2))
分组小结:

findall: 优先显示分组中的内容
split: 保留在分组中的分割符内容
search: 可以通过.group()索引分组内容的值
取消分组优先:(?:正则)

7.分组命名**

在分组括号前输入:?P<名称> 就可为分组命名。

ret = re.search('<(?P<tag>\w+)>.*</(?P<content>\w+)>','<title>hahaha</title>')
print(ret.group(0))  # 不受分组影响
print(ret.group('tag'))  # 不受分组的影响
print(ret.group('content'))  # 不受分组影响
分组特殊的要求:

网页中我们需要匹配成对的标签

s = '<h1>wahaha</h2></h2></h3>'

ret = re.search('<(?P<tag>\w+)>.*</(?P=tag)>','<h1>wahaha</h2></h1></h3>')
print(ret.group())

ret = re.search(r'<(?P<tag>\w+)>.*</\1>','<h1>wahaha</h2></h1></h3>')
print(ret.group())

使用匹配的tips:

当我们需要匹配的内容混在不相匹配内容中
只能把不想要匹配的东西也匹配出来,然后去掉不想要的,就可以拿到想要的内容。

练习扩展**
1.匹配标签
import re


ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name'))  #结果 :h1
print(ret.group())  #结果 :<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不给组起名字,也可以用\序号来找到对应的组,表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group())  #结果 :<h1>hello</h1>
2.匹配整数*
import re

ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']
ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '-2', '60', '', '5', '-4', '3']
ret.remove("")
print(ret) #['1', '-2', '60', '5', '-4', '3']
3.匹配数字
1、 匹配一段文本中的每行的邮箱  http://blog.csdn.net/make164492212/article/details/51656638
2、 匹配一段文本中的每行的时间字符串,比如:‘1990-07-12’;
   分别取出1年的12个月(^(0?[1-9]|1[0-2])$)、
   一个月的31天:^((0?[1-9])|((1|2)[0-9])|30|31)$
3、 匹配qq号。(腾讯QQ号从10000开始)1,9[0,9]{4,}
4、 匹配一个浮点数。       ^(-?\d+)(\.\d+)?$   或者  -?\d+\.?\d*
5、 匹配汉字。             ^[\u4e00-\u9fa5]{0,}$ 
6、 匹配出所有整数
爬虫练习
import requests

import re
import json

def getPage(url):

    response=requests.get(url)
    return response.text

def parsePage(s):
    
    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)

    ret=com.finditer(s)
    for i in ret:
        yield {
            "id":i.group("id"),
            "title":i.group("title"),
            "rating_num":i.group("rating_num"),
            "comment_num":i.group("comment_num"),
        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num
    response_html=getPage(url)
    ret=parsePage(response_html)
    print(ret)
    f=open("move_info7","a",encoding="utf8")

    for obj in ret:
        print(obj)
        data=json.dumps(obj,ensure_ascii=False)
        f.write(data+"\n")

if __name__ == '__main__':
    count=0
    for i in range(10):
        main(count)
        count+=25
简化版
import re
import json
from urllib.request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    com = re.compile(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)
    for i in ret:
        yield {
            "id": i.group("id"),
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }


def main(num):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
    print(ret)
    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")

count = 0
for i in range(10):
    main(count)
    count += 25

简化版
flags用法
flags有很多可选值:
re.I(IGNORECASE)忽略大小写,括号内是完整的写法
re.M(MULTILINE)多行模式,改变^和$的行为
re.S(DOTALL)点可以匹配任意字符,包括换行符
re.L(LOCALE)做本地化识别的匹配,表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境,不推荐使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
re.X(VERBOSE)冗长模式,该模式下pattern字符串可以是多行的,忽略空白字符,并可以添加注释

  1. 1-9 ↩︎

  2. 1-9 ↩︎

  3. 1-9 ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值