python的re模块常用方法

本文介绍正则表达式的模式语法及特殊元素,包括字符匹配、字符类、特殊字符类等,并通过实例展示了如何使用Python的re模块进行字符查找、替换。

正则表达式模式

模式字符串使用特殊的语法来表示一个正则表达式:

字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。

多数字母和数字前加一个反斜杠时会拥有不同的含义。

标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。

反斜杠本身需要使用反斜杠转义。

由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们。模式元素(如 r'\t',等价于 '\\t')匹配相应的特殊字符。

下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数,某些模式元素的含义会改变。

模式描述
^匹配字符串的开头
$匹配字符串的末尾。
.匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。
[...]用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'
[^...]不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。
re*匹配0个或多个的表达式。
re+匹配1个或多个的表达式。
re?匹配0个或1个由前面的正则表达式定义的片段,非贪婪方式
re{ n}精确匹配 n 个前面表达式。例如, o{2} 不能匹配 "Bob" 中的 "o",但是能匹配 "food" 中的两个 o。
re{ n,}匹配 n 个前面表达式。例如, o{2,} 不能匹配"Bob"中的"o",但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。
re{ n, m}匹配 n 到 m 次由前面的正则表达式定义的片段,贪婪方式
a| b匹配a或b
(re)匹配括号内的表达式,也表示一个组
(?imx)正则表达式包含三种可选标志:i, m, 或 x 。只影响括号中的区域。
(?-imx)正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
(?: re)类似 (...), 但是不表示一个组
(?imx: re)在括号中使用i, m, 或 x 可选标志
(?-imx: re)在括号中不使用i, m, 或 x 可选标志
(?#...)注释.
(?= re)前向肯定界定符。如果所含正则表达式,以 ... 表示,在当前位置成功匹配时成功,否则失败。但一旦所含表达式已经尝试,匹配引擎根本没有提高;模式的剩余部分还要尝试界定符的右边。
(?! re)前向否定界定符。与肯定界定符相反;当所含表达式不能在字符串当前位置匹配时成功
(?> re)匹配的独立模式,省去回溯。
\w匹配字母数字及下划线
\W匹配非字母数字及下划线
\s匹配任意空白字符,等价于 [\t\n\r\f].
\S匹配任意非空字符
\d匹配任意数字,等价于 [0-9].
\D匹配任意非数字
\A匹配字符串开始
\Z匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串。
\z匹配字符串结束
\G匹配最后匹配完成的位置。
\b匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
\B匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
\n, \t, 等.匹配一个换行符。匹配一个制表符。等
\1...\9匹配第n个分组的内容。
\10匹配第n个分组的内容,如果它经匹配。否则指的是八进制字符码的表达式。

正则表达式实例

字符匹配
实例描述
python匹配 "python".
字符类
实例描述
[Pp]ython匹配 "Python" 或 "python"
rub[ye]匹配 "ruby" 或 "rube"
[aeiou]匹配中括号内的任意一个字母
[0-9]匹配任何数字。类似于 [0123456789]
[a-z]匹配任何小写字母
[A-Z]匹配任何大写字母
[a-zA-Z0-9]匹配任何字母及数字
[^aeiou]除了aeiou字母以外的所有字符
[^0-9]匹配除了数字外的字符
特殊字符类
实例描述
.匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。
\d匹配一个数字字符。等价于 [0-9]。
\D匹配一个非数字字符。等价于 [^0-9]。
\s匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

re.findall() 查找字符

从字符串中找出符合模式的字符序列:findall(模式(正则表达式),目标字符串), 返回值为list类型,list元素为匹配出的各个字符串
如:

import re

a = "java|python12988"    
b =  re.findall("java", a)
c = re.findall("\d",a)
print(b,c)

结果

['java'] ['1', '2', '9', '8', '8']

findall()函数还有第三个参数匹配模式,使用多个模式可以用'|'将各个模式分开,并且所有模式可以同时生效
re.I

import re

language = "PythonC#JavaPHP"
r = re.findall('c#', language)
print(r)

结果为

[]

默认情况下区分大小写,所以'c#'并不能匹配出原字符串中的'C#'
编辑第三个参数为re.I,使得匹配不受字母大小写影响

import re

language = "PythonC#JavaPHP"
r = re.findall('c#', language, re.I)
print(r)

结果为

['C#']

如re.S:

import re

language = "PythonC#\nJavaPHP"
r = re.findall('c#.{1}', language, re.I) # "."匹配出除换行符外的所有字符
print(r)

结果为

[]

加上模式re.S,可以改变"."的行为,将其匹配出换行符

import re

language = "PythonC#\nJavaPHP"
r = re.findall('c#.{1}', language, re.I | re.S) # "."匹配除换行符外的所有字符
print(r)

结果为

['C#\n']

re.sub()正则替换,替换字符

re.sub(要替换的字符,替换后字符,目标字符串,替换个数),返回值为替换后的字符串
如:

import re

language = 'PythonC#JavaC#PHPC#'
r = re.sub('C#','GO',language)
print(r)

结果为

PythonGOJavaGOPHPGO

上例中,替换个数默认为0,加入替换个数参数
如:

import re

language = 'PythonC#JavaC#PHPC#'
r = re.sub('C#','GO',language,count=1)
print(r)

结果为

PythonGOJavaC#PHPC#

结果就只把第一个C#给替换了
效果与python的内置函数replace()一样

re.sub()的第二个参数也可以传入一个函数
如:

import re

def convert(value):
    print(value)

language = 'PythonC#JavaC#PHPC#'
r = re.sub('C#', convert, language)
print(r)

结果为打印出了三个match对象,span表示了匹配到的字符的位置

<_sre.SRE_Match object; span=(6, 8), match='C#'>
<_sre.SRE_Match object; span=(12, 14), match='C#'>
<_sre.SRE_Match object; span=(17, 19), match='C#'>
PythonJavaPHP

说明'C#'被匹配到了三次,每次都会调用convert函数,由于该函数没有返回值,所以返回的字符串的'C#'被去掉了
改写上例,由于value是个对象,所以可以调用valuegroup()方法获得所要匹配的'C#'

import re

def convert(value):
    matched = value.group()
    return '!!' + matched + '!!'

language = 'PythonC#JavaC#PHPC#'
r = re.sub('C#', convert, language)
print(r)

结果'C#'被成功替换成了'!!C#!!':

Python!!C#!!Java!!C#!!PHP!!C#!!

由于re.sub()的第二个参数可以传入一个函数,所以可以对字符串进行各种复杂的操作
例如:
将字符串'ABC24525DEF22698'中所有小于等于4的数字替换成0,大于4的数字替换成9,就可以编辑convert函数实现这个功能

import re

def convert(value):
    matched = value.group()
    if int(matched) <= 4:
        return '0'
    else: 
        return '9'

language = 'ABC24525DEF22698'
r = re.sub('\d', convert, language)
print(r)

打印结果为:

ABC00909DEF00999

将函数作为参数传入另一个函数是函数式编程

re.match()和re.search()

re.match()从字符串的起始位置匹配,若起始位置不符合正则表达式,则返回空
re.search()搜索整个字符串,返回第一个匹配的结果

两个函数若都能匹配到结果,那么返回的结果也是一个match对象
match对象的方法除了有group()之外还有span()方法,可以返回匹配结果的位置

re.findall()方法就是把所有的匹配结果返回

转载于:https://www.cnblogs.com/xiaohuhu/p/10605131.html

<think>好的,我现在需要回答用户关于Python re模块常用方法的问题。用户希望得到详细解释示例,所以我得先回顾一下re模块的主要函数,并确保每个方法的说明清晰,示例准确。 首先,用户提到了re模块常用方法,所以我需要列出最常用的几个,比如match、search、findall、finditer、sub、split、compile等。每个方法都需要解释其功能、参数、返回值以及使用场景。 接下来,我需要参考用户提供的引用内容。引用1到5中提到了search、findall、sub、compile等方法的示例,这些可以作为基础。但要注意用户可能已经看过这些示例,所以需要进一步补充更多细节,比如flags参数的不同选项,或者不同方法的区别,比如matchsearch的不同之处。 然后,我需要确保每个示例代码正确,并且符合Python的语法。例如,re.match只在字符串开头匹配,而search会扫描整个字符串。在示例中要体现出这一点。比如,当使用match匹配'123abc'时,可以得到结果,但如果字符串不是以模式开头,则返回None。 另外,用户可能需要知道如何处理分组,比如在sub中使用反向引用,或者在findall中返回分组匹配的内容。这些高级用法也应该提及,但不要过于复杂,保持重点在常用方法上。 还要注意,用户要求使用中文回答,所以所有的解释注释都需要用中文。同时,行内公式如果有的话需要用$...$,但在这个问题中可能不需要数学公式,所以可能可以忽略这部分,但需要检查是否有变量名需要处理。 接下来,我需要组织回答结构,每个方法作为一个子标题,解释方法,参数,示例代码输出。然后生成相关问题,确保问题覆盖常见的疑惑点,比如方法之间的区别,正则表达式中的贪婪模式,或者如何处理复杂匹配。 最后,检查引用是否正确添加。例如,在提到sub方法时,引用5引用3都提供了示例,需要正确标注。同时确保引用标识在回答末尾自然出现,不要重复或遗漏。 现在开始整理每个方法的详细说明,确保每个部分都有示例代码,并且代码能够正确运行。例如,compile方法可以用来预编译正则表达式,提高效率,这在处理大量文本时很重要。然后,match、search等方法可以通过编译后的模式对象调用,或者直接通过re模块调用。 在写示例时,要展示不同情况下的输出,比如匹配成功失败的情况,这样用户能更清楚方法的返回值类型。例如,re.match如果失败会返回None,而search成功则返回匹配对象。 此外,对于finditerfindall的区别,要说明finditer返回迭代器,适合处理大量匹配结果,而findall返回列表。同时,当正则表达式中有分组时,findall的行为会变化,这点需要特别指出,避免用户混淆。 最后,生成的相关问题需要围绕re模块的深入使用,比如性能优化、复杂正则的编写、常见错误处理等,帮助用户进一步学习。</think>### Python re模块常用方法详解 #### 1. **`re.match()`** - **功能**:从字符串**开头**尝试匹配正则表达式。 - **参数**:`pattern`(正则表达式),`string`(目标字符串),`flags`(匹配模式,如忽略大小写)。 - **返回值**:匹配成功返回`Match`对象,失败返回`None`。 - **示例**: ```python import re result = re.match(r'\d+', '123abc') # 匹配开头数字 print(result.group()) # 输出: 123 result = re.match(r'\d+', 'abc123') # 开头无数字 print(result) # 输出: None ``` #### 2. **`re.search()`** - **功能**:扫描整个字符串,返回**第一个**匹配项[^1]。 - **参数**:同`re.match()`。 - **示例**: ```python result = re.search(r'\d+', 'abc123def') # 找到第一个数字序列 print(result.group()) # 输出: 123 ``` #### 3. **`re.findall()`** - **功能**:返回所有非重叠匹配项的**列表**,支持分组捕获[^2]。 - **示例**: ```python result = re.findall(r'\d+', '1a22b333c') # 匹配所有数字序列 print(result) # 输出: ['1', '22', '333'] result = re.findall(r'(\d)(\w)', '1a2b3c') # 分组捕获 print(result) # 输出: [('1', 'a'), ('2', 'b'), ('3', 'c')] ``` #### 4. **`re.finditer()`** - **功能**:返回所有匹配项的**迭代器**(适合处理大量数据)。 - **示例**: ```python matches = re.finditer(r'\d+', '1a22b333c') for match in matches: print(match.group()) # 依次输出: 1, 22, 333 ``` #### 5. **`re.sub()`** - **功能**:替换所有匹配项,返回新字符串[^3][^5]。 - **参数**:`pattern`, `repl`(替换内容), `string`, `count`(最大替换次数)。 - **示例**: ```python text = "Python 2.7 发布于2010年,Python 3.0 发布于2008年" new_text = re.sub(r'\d+\.\d+', 'X.Y', text) print(new_text) # 输出: Python X.Y 发布于2010年,Python X.Y 发布于2008年 # 使用函数作为替换内容 def replace_year(match): return str(int(match.group()) + 10) new_text = re.sub(r'\d{4}', replace_year, "2023年计划") print(new_text) # 输出: 2033年计划 ``` #### 6. **`re.split()`** - **功能**:根据正则表达式分割字符串,返回列表。 - **示例**: ```python result = re.split(r'\d+', 'a1b22c333d') # 按数字分割 print(result) # 输出: ['a', 'b', 'c', 'd'] ``` #### 7. **`re.compile()`** - **功能**:预编译正则表达式,提升重复使用效率[^4]。 - **示例**: ```python pattern = re.compile(r'\d+') # 编译正则 print(pattern.findall('abc123def456')) # 输出: ['123', '456'] print(pattern.sub('X', 'abc123def456')) # 输出: abcXdefX ``` --- ### 方法对比表 | 方法 | 作用范围 | 返回值类型 | 适用场景 | |-------------|-------------|----------------|----------------------| | `match()` | 字符串开头 | `Match`或`None` | 验证输入格式 | | `search()` | 整个字符串 | `Match`或`None` | 查找首个匹配项 | | `findall()` | 整个字符串 | `list` | 提取所有匹配数据 | | `sub()` | 整个字符串 | `str` | 批量替换文本内容 | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值