正则表达式

最新推荐文章于 2025-12-23 21:13:08 发布

原创最新推荐文章于 2025-12-23 21:13:08 发布 · 236 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#正则表达式

Python 专栏收录该内容

14 篇文章

订阅专栏

正则表达式

1、初识正则表达式
2、正则表达式的一些使用
3、re.sub 正则替换
4、re.match 与 re.search
5、group和groups

1、初识正则表达式

re 模块使Python语言拥有全部的正则表达式的功能
re.findall(正则表达式, 所要查找的字符串) ：在字符串中找到正则表达式所匹配的所有字串，并返回一个列表，如果没有找到匹配的，则返回一个空列表
实例：

import re

a = 'C|C++|Java|C#|Python|Javascript|Python'

r = re.findall('Python', a)
print(r)	# ['Python', 'Python']

2、正则表达式的一些使用

普通字符和元字符
字符集
数量词
贪婪与非贪婪模式默认贪婪
边界匹配
组
模式参数

实例：

import re

a = 'C|C++|Java|C#|Python|Javascript|Python'

r = re.findall('Python', a)
print(r)	# ['Python', 'Python']

# 元字符
a = 'C0C++9Java7C#6Python4Javascript'
x = re.findall('\d', a)		# \d 匹配所有的数字
print(x)	# ['0', '9', '7', '6', '4'] 

x = re.findall('\D', a)		# \D 匹配所有的非数字
print(x)	# ['C', 'C', '+', '+', 'J', 'a', 'v', 'a', 'C', '#', 'P', 'y', 't', 'h', 'o', 'n', 'J', 'a', 'v', 'a', 's', 'c', 'r', 'i', 'p', 't']

# 字符集
s = 'abc, acc, adc, aec, afc, ahc'

r = re.findall('a[cf]c', s)		# ['acc', 'afc']
r = re.findall('a[^cf]c', s)	# ['abc', 'adc', 'aec', 'ahc']
r = re.findall('a[c-h]c', s)	# ['acc', 'adc', 'aec', 'afc', 'ahc']
print(r)

# 数量词
a = 'python 1111java678php'

r = re.findall('[a-z]{3,6}', a)		# 区间取值，最少3个，最多6个
print(r)	# ['python', 'java', 'php']

# 贪婪 与 非贪婪  默认贪婪
a = 'python 1111java678php'

r = re.findall('[a-z]{3,6}?', a)	# 取消贪婪模式
print(r)	# ['pyt', 'hon', 'jav', 'php']

# 数量词2
# * 匹配0次或者无限多次
# + 匹配1次或者无限多次
# ？ 匹配0次或者1次（跟在区间后面则表示取消贪婪模式）
a = 'pytho0python1pythonn2'

r = re.findall('python*', a)	# ['pytho', 'python', 'pythonn']
r = re.findall('python+', a)	# ['python', 'pythonn']
r = re.findall('python?', a)	# ['pytho', 'python', 'python']
print(r)

# 边界匹配	^(首) $(尾)
qq = '100000001'    # 9位

r = re.findall('^\d{4,8}$', qq)
print(r)	# []

# 组
a = 'PythonPythonPythonPythonPython'

r = re.findall('(Python){3}', a)
print(r)	# ['Python']

# 模式参数
language = 'PythonC#\nJavaPHP'

r = re.findall('c#.{1}', language, re.I | re.S)		# re.I 不区分大小写  # re.S 让.可以匹配所有字符
print(r)	# ['C#\n']

3、re.sub 正则替换

语法：
re.sub(pattern, repl, string, count=0, flags=0)

参数：
pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。
flags : 编译时用的匹配模式，数字形式。

前三个为必选参数，后两个为可选参数
实例：

l = 'PythonC#JavaC#PHPC#'

def convert(value):
    matched = value.group()
    return '!!' + matched + '!!'

r = re.sub('C#', 'GO', l)		# PythonGOJavaGOPHPGO
r = re.sub('C#', 'GO', l, 1)	# PythonGOJavaC#PHPC#
r = re.sub('C#', convert, l)	# Python!!C#!!Java!!C#!!PHP!!C#!!
print(r)

s = 'A8C3721D86'

def convert1(value):
    matched = value.group()
    if int(matched) >= 6:
        return '9'
    else:
        return '0'

r = re.sub('\d', convert1, s)
print(r)	# A9C0900D99

4、re.match 与 re.search

re.match(pattern, string, flags=0) 从字符串的起始位置匹配，如果不是起始位置匹配成功的话，就返回None
re.search(pattern, string, flags=0) 扫描整个字符串并返回第一个成功的匹配
两者返回的都是对象
两者都只匹配一次
结果.group() 可以返回匹配到的结果
结果.span() 可以返回到匹配的位置
实例：

s = 'A8C3721D86'

r = re.match('\d', s)
print(r)			# None
r1 = re.search('\d', s)
print(r1)			# <re.Match object; span=(1, 2), match='8'>
print(r1.span())	# (1, 2)
print(r1.group())	# 8

5、group和groups

实例：

s = 'life is short,i use python, i love python'

r = re.search('life(.*)python(.*)python', s)
print(r.group(0, 1, 2))		# ('life is short,i use python, i love python', ' is short,i use ', ', i love ')
print(r.groups())			# (' is short,i use ', ', i love ')