python的re模块

最新推荐文章于 2023-08-11 19:24:14 发布

原创最新推荐文章于 2023-08-11 19:24:14 发布 · 206 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍了Python中正则表达式的使用方法，包括常见元字符的功能解释及re模块的各种API接口的应用，如查找、替换等操作。

正则表达式是我们日常编程经常使用到的，运用检索或替换字符串中匹配的子串。对于python语言来说，已有基础的正则表达式模块（即re模块），当然还有其它第三方的正则表达式模块，通常第三方的正则表达式模块也包含re模块中实现的所有API接口。

在我们解释API之前，我们先简单了解python的正则表达式的写法：

. 在默认模式下，它匹配除换行符之外的任何字符。如果DOTALL已指定该标志，则匹配包括换行符在内的任何字符。
^ 匹配字符串的开头，并且在MULTILINE模式下也会在每个换行符后立即匹配。
$ 匹配字符串的结尾或在字符串末尾的换行符之前，并且在MULTILINE模式中也匹配换行符之前。 foo 匹配'foo'和'foobar'，而正则表达式foo$只匹配'foo'。更有趣的是，通常foo.$在'foo1\nfoo2\n'匹配'foo2'中搜索，但在MULTILINE模式中搜索'foo1' ; 搜索单个$in 'foo\n'将找到两个（空）匹配：一个在换行符之前，一个在字符串末尾。
* 使得到的RE匹配前面RE的0或更多次重复，尽可能多的重复。 ab*将匹配'a'，'ab'或'a'，后跟任意数量的'b'。
+ 使得到的RE匹配前一个RE的1次或更多次重复。 ab+将匹配'a'，后跟任何非零数字的'b'; 它不会只匹配'a'。
? 使得到的RE匹配前面RE的0或1次重??复。 ab?将匹配'a'或'ab'。
*?，+?，?? 的'*'，'+'和'?'预选赛都是贪婪的 ; 它们匹配尽可能多的文本。有时这种行为是不可取的; 如果RE <.*>匹配，它将匹配整个字符串，而不仅仅是。在限定符之后添加使其以非贪婪或最小的方式执行匹配; 尽可能少的字符将匹配。使用RE 仅匹配。'<a> b <c>''<a>'?<.*?>'<a>'
{m} 指定应匹配前一个RE的m个副本; 较少的匹配导致整个RE不匹配。例如，a{6}将匹配正好六个'a'字符，但不匹配五个字符。
{m,n} 使得到的RE匹配前一个RE的m到n次重复，尝试匹配尽可能多的重复。例如， a{3,5}将匹配3到5个'a'字符。省略m指定零的下限，省略n指定无限上限。作为一个例子，a{4,}b将匹配'aaaab'或一千个'a'字符后跟一个'b'，但不是'aaab'。可以不省略逗号，或者将修饰符与先前描述的形式混淆。
{m,n}? 使得到的RE匹配前一个RE的m到n次重复，尝试匹配尽可能少的重复。这是前一个限定符的非贪婪版本。例如，在6个字符的字符串上'aaaaaa'，a{3,5}将匹配5个'a'字符，而a{3,5}?只匹配3个字符。
\ 要么转义特殊字符（允许你匹配像'*'，'?'等等那样的字符），要么发出特殊序列的信号; 下面讨论特殊序列。如果你没有使用原始字符串来表达模式，请记住Python也使用反斜杠作为字符串文字中的转义序列; 如果Python的解析器无法识别转义序列，则反斜杠和后续字符将包含在结果字符串中。但是，如果Python会识别结果序列，则反斜杠应重复两次。这很复杂且难以理解，因此强烈建议您使用原始字符串，除了最简单的表达式。

下面我们逐个了解re模块中所有的API接口的使用：

1）、compile(pattern, flags=0)
编译一个正则表达式模式，返回一个模式对象。此主要达配其他函数使用

2）、split(pattern, string, maxsplit=0, flags=0)
通过模式，分割成若干个字符串，并以链表形式返回
3）、escape(pattern)
转义除ASCII字母、数字和'_'之外的所有字符。

4）、findall(pattern, string, flags=0)
返回字符串中所有非重叠匹配的列表。如果模式中存在一个或多个捕获组，则返回元组的列表;如果是模式，这将是一个元组列表有多个组。结果中包含空匹配项。

5）、finditer(pattern, string, flags=0)
返回一个迭代器，遍历字符串。对于每个匹配，迭代器返回一个匹配对象。结果中包含空匹配项。

6）、fullmatch(pattern, string, flags=0)
返回一个迭代器，遍历字符串。对于每个匹配，迭代器返回一个匹配对象。结果中包含空匹配项。

7）、match(pattern, string, flags=0)
尝试在字符串的开头应用模式，返回匹配对象，如果没有找到匹配，则为None。

8）、purge()
清除正则表达式缓存
9）、search(pattern, string, flags=0)
在字符串中搜索匹配的模式，返回匹配对象，如果没有找到匹配，则为None。

10）、sub(pattern, repl, string, count=0, flags=0)
返回替换最左边所获得的字符串不重叠的模式在字符串中的出现替换repl。repl可以是字符串也可以是可调用的;如果一个字符串，反斜杠转义将被处理。如果它是一个可调用的，它通过了匹配对象并且必须返回。要使用的替换字符串。

11）、subn(pattern, repl, string, count=0, flags=0)
返回一个包含(new_string, number)的2元组。new_string是通过替换最左边得到的字符串源中模式的不重叠出现用替换的repl字符串。数字是替换。repl可以是字符串也可以是a可调用的;如果一个字符串，反斜杠转义将被处理。如果它是可调用的，它将通过匹配对象并必须。返回要使用的替换字符串。

12）、template(pattern, flags=0)

编译一个模板模式，返回一个模式对象