正则表达式学习笔记

本文介绍了Python中的re.match函数,用于从字符串起始位置匹配正则模式。内容涵盖常规匹配、范匹配、分组匹配、贪婪与非贪婪匹配,以及在处理换行和特殊字符时的注意事项。同时,提到了re.search和re.findall等其他正则相关函数的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

re.match()的使用

尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回None

1.最常规的匹配

import re 

contect = 'Hello 123 456789 World_this is a Regex Demo'

res= re.match('^Hello\s\d\d\d\s\d{6}\s\w{10}.*Demo$', contect)

print(res)
print(res.group()) #获取匹配内容
print(res.span()) #查看匹配长度
print(len(contect))  #len统计字符串的数量
<re.Match object; span=(0, 43), match='Hello 123 456789 World_this is a Regex Demo'>
Hello 123 456789 World_this is a Regex Demo
(0, 43)
43
a_str = 'qwe 123 ghj'
res = re.match('^q\w{2}\s\d{3}.*j$', a_str)
print(res.group())
qwe 123 ghj

2.范匹配

contect = 'Hello 123 4567 World_This is a Regex'

result = re.match('^H.*?Regex$', contect)
print(result.group())
print(result.span())
Hello 123 4567 World_This is a Regex
(0, 36)

3.匹配目标–分组匹配(可用()进行分组匹配)

contect = 'qwe Hello 1234567 world_This is a Regex Demo'

# result = re.match('^qwe\s(\w+)\s(\d{7}).*Demo$', contect)  #括号分组
result = re.match('^qwe\s(\w+)\s(\d{3}).*Demo$', contect)  #第二组匹配前3个数
print(result.group())
print(result.group(1))
print(result.group(2))
qwe Hello 1234567 world_This is a Regex Demo
Hello
123
sssd = 'dasdjskL22222adjlsakjddd666666dasssssssa'

result = re.match('^d.*L(\d+).*ddd(\d+)d.*a$', sssd)
print(result)
print(result.group(1))
print(result.group(2))
<re.Match object; span=(0, 40), match='dasdjskL22222adjlsakjddd666666dasssssssa'>
22222
666666

4.贪婪匹配(尽可能多的去匹配)

content = 'Hello 1234567 world_This is a Regex Demo'

result = re.match('^He.*(\d+)\s.*Demo$', content)
print(result)
print(result.group(1))
<re.Match object; span=(0, 40), match='Hello 1234567 world_This is a Regex Demo'>
7

5.非贪婪模式(尽可能少的去匹配)

content = 'Hello 1234567 world_This is a Regex Demo'

result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))
<re.Match object; span=(0, 40), match='Hello 1234567 world_This is a Regex Demo'>
1234567

6.匹配模式(针对换行) re.S

#re.S匹配包括换行在内的所有字符
content = '''Hello 1234567 world_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*Demo$', content, re.S)
print(result)
print(result.group(1))
<re.Match object; span=(0, 40), match='Hello 1234567 world_This\nis a Regex Demo'>
1234567

7.转义

#错误
content = 'price is $5.00'  #  .是正则里的特殊匹配符号

result = re.match('price is $5.00', content)
print(result)
None
#正确
content = 'price is $5.00'  #  .是正则里的特殊匹配符号

result = re.match('price is \$5\.00', content)
print(result)
print(result.group())
<re.Match object; span=(0, 14), match='price is $5.00'>
price is $5.00

尽量使用非贪婪模式

re.search()方法的使用

re.search()扫描整个字符串并返回第一个成功的匹配

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

# result = re.match('He.*?(\d+).*?Wor', content)  #None
result = re.match('Ex.*?(\d+).*?Wor', content)
print(result)
<re.Match object; span=(0, 30), match='Extra stings Hello 1234567 Wor'>
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

result = re.search('He.*?(\d+).*?Wor', content)
print(result)
print(result.group(1))
<re.Match object; span=(13, 30), match='Hello 1234567 Wor'>
1234567
html = '''<li data-view="4" class="active">
              <a href="/3.mp3" singer="老秦">往事随风</a>
          </li>
'''

result = re.search('<li.*?class="active".*?singer="(.*?)">(.*?)</a>.*?</li>', html, re.S)
print(result.group(1))
print(result.group(2))
老秦
往事随风

re.findall()

拿到所有满足要求的数据

找到数据的共同点,基本不一样的地方用.*?

re.sub()

替换字符串中每一个匹配的字符串后返回替换后的字符串

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
#第一个参数 正则表达式
#第二个参数 要替换的字符串
#第三个参数 原字符串
content = re.sub('s', '7', content)
print(content)
Extra 7ting7 Hello 1234567 World_Thi7 i7 a Regex Demo Extra 7ting7
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

content = re.sub('\d+', '66666666', content)
print(content)
Extra stings Hello 66666666 World_This is a Regex Demo Extra stings
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

#要替换的内容是在包含原字符串的本身后面去追加
content = re.sub('(\d+)',r'\1 3333', content)  #\1保留原始字符串  r表示追加  空格后面表示要追加的内容
print(content)
Extra stings Hello 1234567 3333 World_This is a Regex Demo Extra stings

| 表示或
将阻碍匹配的数据替换成空白
方便后面的匹配

re.compile()

将正则字符串编译成正则表达式对象

content = '''Hello 1234567 world_This
is a Regex Demo
'''

pattern = re.compile('Hello.*?Demo', re.S)  #正则表达式对象
print(pattern)

result = re.match(pattern, content)
print(result)
re.compile('Hello.*?Demo', re.DOTALL)
<re.Match object; span=(0, 40), match='Hello 1234567 world_This\nis a Regex Demo'>
### PyCharm 打开文件显示全的解决方案 当遇到PyCharm打开文件显示全的情况时,可以尝试以下几种方法来解决问题。 #### 方法一:清理缓存并重启IDE 有时IDE内部缓存可能导致文件加载异常。通过清除缓存再启动程序能够有效改善此状况。具体操作路径为`File -> Invalidate Caches / Restart...`,之后按照提示完成相应动作即可[^1]。 #### 方法二:调整编辑器字体设置 如果是因为字体原因造成的内容显示问题,则可以通过修改编辑区内的文字样式来进行修复。进入`Settings/Preferences | Editor | Font`选项卡内更改合适的字号大小以及启用抗锯齿功能等参数配置[^2]。 #### 方法三:检查项目结构配置 对于某些特定场景下的源码视图缺失现象,可能是由于当前工作空间未能正确识别全部模块所引起。此时应该核查Project Structure的Content Roots设定项是否涵盖了整个工程根目录;必要时可手动添加遗漏部分,并保存变更生效[^3]。 ```python # 示例代码用于展示如何获取当前项目的根路径,在实际应用中可根据需求调用该函数辅助排查问题 import os def get_project_root(): current_file = os.path.abspath(__file__) project_dir = os.path.dirname(current_file) while not os.path.exists(os.path.join(project_dir, '.idea')): parent_dir = os.path.dirname(project_dir) if parent_dir == project_dir: break project_dir = parent_dir return project_dir print(f"Current Project Root Directory is {get_project_root()}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

跨界科技汇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值