python 正则表达式

WannaCrySSS

已于 2022-11-21 00:05:52 修改

阅读量275

点赞数

文章标签：正则表达式 python 开发语言

于 2022-11-20 23:57:51 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_58358185/article/details/127956606

版权

以下是我学习时候实践的代码，需要的同学可以一段一段复制去python里面运行一下，每段对照两张表进行食用效果更佳

模　　式	描　　述
`\w`	匹配字母、数字及下划线
`\W`	匹配不是字母、数字及下划线的字符
`\s`	匹配任意空白字符，等价于 `[\t\n\r\f]`
`\S`	匹配任意非空字符
`\d`	匹配任意数字，等价于 `[0-9]`
`\D`	匹配任意非数字的字符
`\A`	匹配字符串开头
`\Z`	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
`\z`	匹配字符串结尾，如果存在换行，同时还会匹配换行符
`\G`	匹配最后匹配完成的位置
`\n`	匹配一个换行符
`\t`	匹配一个制表符
`^`	匹配一行字符串的开头
`$`	匹配一行字符串的结尾
`.`	匹配任意字符，除了换行符，当 `re.DOTALL` 标记被指定时，则可以匹配包括换行符的任意字符
`[...]`	用来表示一组字符，单独列出，比如 `[amk]` 匹配 `a`、`m` 或 `k`
`[^...]`	不在 `[]` 中的字符，比如匹配除了 `a`、`b`、`c` 之外的字符
`*`	匹配 0 个或多个表达式
`+`	匹配 1 个或多个表达式
`?`	匹配 0 个或 1 个前面的正则表达式定义的片段，非贪婪方式
`{n}`	精确匹配 n 个前面的表达式
`{n, m}`	匹配 n 到 m 次由前面正则表达式定义的片段，贪婪方式
`a	b`	匹配 a 或 b
`()`	匹配括号内的表达式，也表示一个组

`re.I`	使匹配对大小写不敏感
`re.L`	做本地化识别（locale-aware）匹配
`re.M`	多行匹配，影响 `^` 和 `$`
`re.S`	使.*匹配包括换行符在内的所有字符
`re.U`	根据 Unicode 字符集解析字符。这个标志影响 `\w`、`\W`、`\b` 和 `\B`
`re.X`	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解

 

import re

content = "woorwe12343Hello 123 4567 World_This is a Regex Demo"

#match方法 是从头开始匹配的

print(len(content))
result = re.match(".*Hello\s123\s\d{4}\s\w{10}",content)  #参数：re.match(pattern,content)
print(result.group()) #group返回匹配到的字符
print(result.span())#返回匹配到的跨度
print(result)#返回的是re对象

print("----------------------------------------------------")
#如果想从子字符串中提取部分内容   如想提取出1234567
result = re.match(".*Hello\s(\d+)\s(\d+)",content)
print(result.group())
print(result.group(1),result.group(2))   #() 实际上标记了一个子表达式的开始和结束位置，被标记的每个子表达式会依次对应每一个分组，调用 group 方法传入分组的索引即可获取提取的结果。

print("---------------------------通用匹配--------------------")
#使用.*      其中 . 可以匹配任意字符（除换行符），* 代表匹配前面的字符无限次，所以它们组合在一起就可以匹配任意字符了。有了它，我们就不用挨个字符匹配了。
result = re.match(".*Hello\s\d*\s(\d+)",content)
print(result.group(1))


content1 = "wolven Hello 1234567 World_This is a Regex Demo"


print("----------------------------贪婪与非贪婪--------------")
#贪婪与非贪婪
# 此时我想得到中间那串数字
result = re.match(".*(\d+).*",content1)
print(result.group(1),"我是贪婪")  #此时只输出了7
#\d+    +表示至少匹配一个数字
# ?    匹配 0 个或 1 个前面的正则表达式定义的片段，非贪婪方式
# 问题就处在.*身上，在贪婪模式下.*会尽可能多的匹配字符，所以\d+就只匹配到一个7

# 所以就需要?来指定.*将他变为非贪婪
result = re.match(".*?(\d+).*",content1)
print(result.group(1),"我不贪婪")  #此时输出就是1234567

#但是在字符串结尾非贪婪模式可能会匹配不到内容

content2 = "wolven Hello 1234567 World_This is a Regex Demo"
# 此时我想匹配Demo
result = re.match(".*Hello.*\s(.*?)",content2)
print(result.group(1),"我不贪婪")   #此时没有得到结果

result = re.match(".*Hello.*\s(.*)",content2)
print(result.group(1),"我贪婪")   #得到Demo


print("-------------------------修饰符------------------")
content3 = '''Hello 1234567 World_This
is a Regex Demo
'''
#此时我想匹配1234567
# result= re.match("He.*?(\d+).*Demo",content3)
# print(result.group(1))    #此时会报错    因为第二个.*在遇到换行后就不进行匹配了 ,此时就可以使用属性Re.s

result = re.match("He.*?(\d+).*Demo",content3,re.S)
print(result.group(1),"加上了re.S","自动空格？")


print("--------------------------转义匹配--------------------")
# 当遇到匹配的内容含有特殊符号的时候，可以加上\来进行转义
content4 = '''Hello .1234567 World_This
is a Regex Demo
'''
# 此时我们要匹配.123
result = re.match("He.*\.\d{3}",content4,re.S)
print(result.group()) #此时返回的就是Hello .123   你可以不加的时候试试


print("----------------------不从开头开始匹配------------------")
#如果我们使用match方法却不从头开始匹配那么就会整个匹配就失败了，报错，
# 所以此时我们需另一个方法search，他在匹配的时候会扫描字符串然后返回第一个成功的结果
content5 = '''Hello .1234567 World_This
is a Regex Demo
'''
result = re.search("12.*?\s",content5,re.S)
print(result.group())


print("--------实战一下------------")
html = '''
<div id="songs-list">
  <h2 class="title">经典老歌</h2>
  <p class="introduction">经典老歌列表</p>
  <ul id="list" class="list-group">
    <li data-view="2">一路上有你</li>
    <li data-view="7">
      <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
    </li>
    <li data-view="4" class="active">
      <a href="/3.mp3" singer="齐秦">往事随风</a>
    </li>
    <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
    <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
    <li data-view="5">
      <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
    </li>
  </ul>
</div>
'''

#此时我要得到齐秦和往事随风
result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>' , html ,re.S)
print(result.group(1),result.group(2))  #此时得到齐秦 往事随风

#此时我们要任贤齐和沧海一声笑，直接去掉active
result = re.search('<li.*?singer="(.*?)">(.*?)</a>' , html ,re.S)
print(result.group(1),result.group(2))  #任贤齐 沧海一声笑  就是匹配到一个就马上停止了

result = re.search('<li.*?singer="(.*?)">(.*?)</a>' , html)
print(result.group(1),result.group(2))  #beyond 光辉岁月
#如果我们不加re.S这个参数的话 就说明<li 与 </a>必须要在同一行才能被匹配到




print("--------findall我全都要------------")
html1 = '''
<div id="songs-list">
  <h2 class="title">经典老歌</h2>
  <p class="introduction">经典老歌列表</p>
  <ul id="list" class="list-group">
    <li data-view="2">一路上有你</li>
    <li data-view="7">
      <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
    </li>
    <li data-view="4" class="active">
      <a href="/3.mp3" singer="齐秦">往事随风</a>
    </li>
    <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
    <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
    <li data-view="5">
      <a href="/6.mp3" singer="邓丽君">但愿人长久</a>
    </li>
  </ul>
</div>
'''

#我要获取全部a标签的链接和所以歌手名字和歌名
# ----------findall方法 该方法会搜索整个字符串，然后返回匹配正则表达式的所有内容。
# findall的返回类型为列表

result = re.findall('<li.*?href="(.*?)"\ssinger="(.*?)">(.*?)</a>' ,html1 ,re.S) #re.S保证换行的也可以匹配到
print(result)
print("一定要注意如果.*在中间的话最好还是使用非贪婪的方式！！！")

print("------------------------sub------------------------")
# 如果我们不是要查找字符串而是要修改字符串时候就需要使用sub方法
content6 = "adsjnej213lkn4123kn12l421"
#此时我要将数字置换为空
result = re.sub("\d+",'',content6)
print(result) #adsjnejlknknl


print("-------------------compile---------------------")
# compile 方法，这个方法可以将正则字符串编译成正则表达式对象，以便在后面的匹配中复用。
content7 = '2019-12-15 12:00'
content8 = '2019-12-17 12:55'
content9 = '2019-12-22 13:21'

#此时我要将时间去掉
pattern = re.compile("\d{2}:\d{2}")
result7 = re.sub(pattern,"",content7)
result8 = re.sub(pattern,"",content8)
result9 = re.sub(pattern,"",content9)

print(result7,result8,result9)  #2019-12-15  2019-12-17  2019-12-22 输出为


# 今天的学习分享就到这里