正则表达式

本文详细介绍正则表达式的常用模式及其应用场景,并通过实例演示如何使用Python中的re模块进行字符串匹配、查找、替换等操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

常见匹配模式

模式描述
\w匹配字母数字及下划线
\W匹配非字母数字下划线
\s匹配任意空白字符,等价于[\t\n\r\f]
\S

匹配任意非空字符

\d匹配任意数字,等价于[0-9]
\D匹配任意非数字
\A匹配字符串开始
\Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串
\z匹配字符串结束
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配字符串的开头
$匹配字符串的末尾
.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符串
[...]用来表示一组字符,单独列出:[amk] 匹配 ‘a’ ,‘m’ 或 ‘k’
[^...]不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符
*匹配0个或多个的表达式
+匹配1个或多个的表达式
匹配0个或1个由前面的正则表达式定义的片段,非贪婪方法
{n}精确匹配n个前面表达式
{n,m}匹配n到m次由前面的正则表达式定义的片段,贪婪方式
a|b匹配a或b
()匹配括号内的表达式,也表示一个组

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

re.match

re.match尝试从字符串的起始位置匹配,如果不是起始位置开始匹配,match()就返回none

re.match(pattern,string,flags=0)

'''
传入的三个参数
①:写得正则表达式
②:目标字符串
③:匹配模式
'''

最常规的匹配

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$',content)
print(result)
print(result.group()) #返回匹配结果
print(result.span()) #输出匹配的范围

运行结果:
①:41
②:<re.Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
③:Hello 123 4567 World_This is a Regex Demo
④:(0, 41)

泛匹配

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$',content)
print(result)
print(result.group())
print(result.span())

运行结果:
①:<re.Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
②:Hello 123 4567 World_This is a Regex Demo
③:(0, 41)

PS:结果以上面一样

匹配目标

import re    #匹配数字

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld.*Demo$',content)
print(result)
print(result.group(1))
print(result.span())

运行结果:
①:<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
②:1234567
③:(0, 40)

贪婪匹配

import re    

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$',content)
print(result)
print(result.group(1))
print(result.span())

运行结果:
①:<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
②:7
③:(0, 40)

PS:.*会尽可能多的匹配字符串

非贪婪匹配

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$',content)
print(result)
print(result.group(1))
print(result.span())

运行结果:
①:<re.Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
②:1234567
③:(0, 40)

PS:.*?会尽可能匹配少的字符

匹配模式

import re

content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$',content,re.S)
print(result)
print(result.group(1))
print(result.span())

运行结果:
①:<re.Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>
②:1234567
③:(0, 40)

PS:如果匹配的字符串有换行符,需在match里添加 re.S

转义

import re

content = 'price is $5.00'
result = re.match('price is $5.00',content)
print(result)

运行结果:
①:None

PS:此方法为错误示范
import re

content = 'price is $5.00'
result = re.match('price is \$5\.00',content)
print(result)
print(result.group())
print(result.span())

运行结果:
①:<re.Match object; span=(0, 14), match='price is $5.00'>
②:price is $5.00
③:(0, 14)

PS:此方法为正确示范,转义加\
总结:尽量使用泛匹配、使用括号得到匹配目标、尽量使用非贪婪模式、有换行符就用re.S

 re.search 

 re.search:扫面整个字符串并返回第一个成功的匹配

import re

content = "Extra stings Hello 1234567 World_This is a Regex Demo Extra stings"
result = re.match("Hello.*?(\d+).*?Demo",content) #错误的示范,无法匹配中间字符串
print(result)

运行结果:
None
import re

content = "Extra stings Hello 1234567 World_This is a Regex Demo Extra stings"
result = re.search("Hello.*?(\d+).*?Demo",content) #成功截取中间字段
print(result)
print(result.group(1))

运行结果:
<re.Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
1234567
总结:为匹配方便,能用search就不用match

匹配演练

import re

content = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></li>但愿人长久</a>
        </li>
    </ul>
</div>'''
results = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',content,re.S)
if results:
    print(results.group(1),results.group(2))

运行结果:
齐秦 往事随风
import re

content = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''
results = re.search('<li.*?singer="(.*?)">(.*?)</a>',content,re.S)
if results:
    print(results.group(1),results.group(2))

运行结果:
任贤齐 沧海一声笑
import re

content = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''
results = re.search('<li.*?singer="(.*?)">(.*?)</a>',content) #去掉re.S的版本
if results:
    print(results.group(1),results.group(2))

运行结果:
beyond 光辉岁月

re.findall

搜索字符串,以列表形式返回全部能匹配的子串
import re

content = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''
results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',content,re.S)
for result in results:
    print(result)

运行结果:
('/2.mp3', '任贤齐', '沧海一声笑')
('/3.mp3', '齐秦', '往事随风')
('/4.mp3', 'beyond', '光辉岁月')
('/5.mp3', '陈慧琳', '记事本')
('/6.mp3', '邓丽君', '但愿人长久')

 

import re

content = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''
results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>',content,re.S) #?可以代表可能有可能没有
for result in results:
    print(result[1])    #打印所有的歌名

运行结果:
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久

re.sub

替换字符串中每一个匹配的子串后返回替换后的字符串
import re

content = "Extra stings Hello 1234567 World_This is a Regex Demo Extra stings"
content = re.sub('\d+','',content)  #第一个参数传入一个正则表达式,第二个参数传入你要替换成的字符串,第三个参数传入你的原字符串
print(content)

运行结果:※替换掉原字符串中的数字
Extra stings Hello  World_This is a Regex Demo Extra stings


import re

content = "Extra stings Hello 1234567 World_This is a Regex Demo Extra stings"
content = re.sub('\d+','Replacement',content)  #第一个参数传入一个正则表达式,第二个参数传入你要替换成的字符串,第三个参数传入你的原字符串
print(content)

运行结果:※将数字替换为Replacement
Extra stings Hello Replacement World_This is a Regex Demo Extra stings


import re

content = "Extra stings Hello 1234567 World_This is a Regex Demo Extra stings"
content = re.sub('(\d+)',r'\1 8910',content) #\1拿到匹配的内容(重新引用需要替换的内容),保证原生字符存在需要加r,如果不要空格就在78910前面加\b
print(content)

运行结果:※在原本字符串数字后面再加数字
Extra stings Hello 1234567 8910 World_This is a Regex Demo Extra stings
import re

content = '''<div id="songs-list">
    <h2 class="title">经典老歌</h2>
    <p class="introduction">
        经典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齐秦">往事随风</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
        </li>
    </ul>
</div>'''
content = re.sub('<a.*?>|</a>','',content) #用sub方法去掉a标签
results = re.findall('<li.*?>(.*?)</li>',content,re.S)
for result in results:
    print(result.strip()) #用strip方法去掉空格和换行符

运行结果:
一路上有你
沧海一声笑
往事随风
光辉岁月
记事本
但愿人长久

re.compile

将一个正则表达式编译成正则对象,以便于复用该匹配模式
import re

content = '''Hello 1234567 World_This
is a Regex Demo'''
patten = re.compile('Hello.*Demo',re.S) #第一个参数传入正则表达式,第二个参数可以传入匹配模式
result = re.match(patten,content)    #这两句等价于下面的一个方法
print(result)
result = re.match('Hello.*Demo',content,re.S)
print(result)

运行结果:
<re.Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>
<re.Match object; span=(0, 40), match='Hello 1234567 World_This\nis a Regex Demo'>

 实战练习

import requests
import re

content = requests.get('https://book.douban.com/').text #传入豆瓣网址并将其源代码解析出来
pattern = re.compile('<li.*?cover.*?href="(.*?)"\stitle="(.*?)">.*?author">'
                     '(.*?)</div>.*?year">(.*?)</span>.*?</li>',re.S)
reslts = re.findall(pattern,content)
for reslt in reslts:
    ul,name,author,date = reslt
    author = re.sub('\s','',author) #清除换行符
    date = re.sub('\s','',date)
    print(ul,name,author,date)

运行结果:(部分)
https://book.douban.com/subject/30258976/?icn=index-editionrecommend 异见时刻 [美]伊琳·卡蒙(IrinCarmon)莎娜·卡尼兹尼克(ShanaKnizhnik) 2018-9-1
https://book.douban.com/subject/27138720/?icn=index-editionrecommend 独抒己见 [美]纳博科夫 2018-9-1
https://book.douban.com/subject/30310334/?icn=index-editionrecommend 无条件增长 [中]李践&nbsp;/&nbsp;[中]黄强 2018-9
https://book.douban.com/subject/30318261/?icn=index-editionrecommend 自控力:实操篇 (美)凯利·麦格尼格尔 2018-9
https://book.douban.com/subject/30323979/?icn=index-editionrecommend 寿命图鉴 [日]伊吕波株式会社著&nbsp;/&nbsp;[日]山口香绪里绘 2018-8-1
https://book.douban.com/subject/30277786/?icn=index-latestbook-subject 软刺 [美]艾米丽•福里德伦德 2018-9
https://book.douban.com/subject/30314653/?icn=index-latestbook-subject 韭菜的自我修养 李笑来 2018-9-21

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值