初始Python篇（7）—— 正则表达式

我要学编程(ಥ_ಥ)

于 2024-11-24 20:38:18 发布

阅读量7.2k

点赞数 104

分类专栏： Python 文章标签：正则表达式 python

本文链接：https://blog.youkuaiyun.com/2301_80854132/article/details/143993381

版权

Python 专栏收录该内容

14 篇文章

订阅专栏

找往期文章包括但不限于本期文章中不懂的知识点：

个人主页：我要学编程(ಥ_ಥ)-优快云博客

所属专栏： Python

正则表达式的概念

在上一篇文章中，我们学习了字符串这种数据类型，基于字符串而广泛使用的就是正则表达式了。我们先来看它的概念。正则表达式（Regular Expression，简称regex或regexp）是一种文本模式描述的工具，它使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在编程语言和文本编辑器中，正则表达式被广泛用于搜索、替换符合某个模式的文本。简单理解就是给了我们一个模板，然后根据这个模版来操作另外的字符串，进行匹配、替换等操作。

正则表达式的组成

既然我们说正则表达式是提供了一个模版，那这个模板是随便可以使用任意字符组成吗？肯定是不行的，其组成部分肯定也是有特殊的规定。组成模版的字符串除了正常使用的字符之外，还有另外一些特殊的字符。

元字符

元字符是具有特殊意义的专用字符。简单理解就是有一些字符在正则表达式中被赋予了一些特殊的作用，并起名叫 "元字符"。下面我们来看常见的元字符。

元字符种类	描述说明
^	表示匹配的开始
$	表示匹配的结束
.	匹配任意字符 (除\n)
\w	匹配字母、数字、下划线
\W	匹配非字母、数字、下划线
\s	匹配任意空白字符（\n、\t 等）
\S	匹配任意非空白字符
\d	匹配任意十进制数（也就是0~9）

注意：可能有小伙伴不是很理解 "匹配" 这个词，这个词和 "寻找" 的意思差不多。匹配成功，就是成功找到了；匹配失败，就是没有找到。对于匹配成功之后，会发生什么，后续在解释。

限定符

限定符是用来限定匹配的次数，也就是当一个字符反复出现时，我们不想全部都匹配只想匹配其中的三个或者四个子类的。

限定符种类	描述说明
？	匹配前面的字符0次或1次
+	匹配前面的字符1次或多次
*	匹配前面的字符0次或多次
{n}	匹配前面的字符n次
{n, }	匹配前面的字符最少n次
{n, m}	匹配前面的字符最小n次，最多m次

注意：限定符必须有前缀字符，也就是表明其要限制的字符是谁。例如，'\w?' 这个字符串如果作为模版的话，就是在匹配一个字符串时，即使该字符串由很多个字母、数字、下划线组成，那最多也就能成功匹配一个。（匹配的结果暂时不管）

其他字符

其他字符	描述说明
区间字符：[ ]	匹配[ ]中所指定的字符
排除字符：^	匹配不在[ ]内的指定字符
选择字符：\|	匹配 "\|" 左右的任意字符
转义字符	与Python中的转义字符是一样的
[\u4e00 - \u9fa5]	匹配任意一个汉字（日常生活中基本都涵盖）
分组：()	改变限定符的作用

详细解释：

1、区间字符：[ ]，匹配过程中，当遇到 [ ] 内的字符时，就会匹配成功。

2、排除字符：^，这其实就是区间字符的取反，匹配过程中，遇到 [ ] 内不存在的字符时，就会匹配成功。区间字符与排除字符经常是一起出现的，因为排除字符是基于区间字符的。但排除字符是存在于区间字符之内的。

3、选择字符：|，这个与Python中的 or 操作符类似，只要满足其中一个条件即可。但不存在类似于"短路"的现象。

4、转义字符就是我们在刚开始学习Python时，学习的转义字符。例如，. 这个字符是元字符的一种，但是加上 \ 之后，这个 "." 就是一个普通字符了。

5、[\u4e00-\u9fa5]：在匹配字符的过程中，如果遇到了某些字符对应的Unicode码值在上述的范围之内，就表明这个是中文字符，且匹配成功了。

6、分组()：这个就类似于圆括号对于操作符的作用，可以实现运算的先后顺序，这里是实现匹配的先后顺序。例如，six l fourth，只能匹配到 six 与 fourth，但是如果加上()，就会变得不一样，( six | four ) th，这里能匹配的就是 sixth 或者 fourth了。相当于是先运算括号内的，在去运算括号外的(这里的就是括号里面的任选一个，括号外边的全部起作用)，与操作符是类似的。

正则表达式的使用

在Python中，如果要使用正则表达式的话，需要导入 re 模块。模块与包的概念是类似的，都是为了实现对某些代码的复用，这是面向对象的重要特征之一：封装。可能有的小伙伴第一门编程语言就是接触的Python，暂时还不了解这些概念，没关系，后面我们会接着学习的。我们只需要知道简单的将模块看成包就行了。

正则表达式的常见操作方法

当我们导入 re 模块之后，就可以进行正则表达式的相关操作了，但具体的操作，还得使用该模块中的方法，接下来详细来学习一下。

方法	描述说明
re.match(pattern,string,flags=0)	用于从字符串的开始位置进行匹配，如果起始位置匹配成功，结果为Match对象，否则结果为None。
re.search(pattern,string,flags=0)	用于在整个字符串中搜索第一个匹配的值，如果匹配成功，结果为Match对象，否则结果为None。
re.findall(pattern,string,flags=0)	用于在整个字符串搜索所有符合正则表达式的值，结果是一个列表类型。
re.sub (pattern,repl,string,count,flags=0)	用于实现对字符串中指定子串的替换
re.split(pattern,string,maxsplit,flags=0)	字符串中的split()方法功能相同，都是分隔字符串的

注意：

1、上述方法的所有pattern、string参数均为字符串类型，pattern 是模块字符串（定义匹配规则的），string 是待匹配的字符串（需要匹配的字符串）。flags=0 是可选参数，用于指定使用正则表达式时的匹配模式，如忽略大小写、多行匹配等。如果不需要特殊匹配模式，可以省略这个参数或者设置为0。我们一般都是直接忽略的。

2、match方法是用来匹配string的起始位置的，一旦起始位置匹配失败的话，即使后面存在可以匹配成功的子串，也会忽略，直接返回None。

3、re.sub() 方法中，repl 是替换字符串或者一个函数。如果 repl 是一个函数，那么这个函数会被调用，传入每个匹配对象，返回值将用于替换匹配到的文本。count 是一个可选参数，指定了模式匹配后替换的最大次数。如果设置为 0，则所有匹配都会被替换。如果设置为一个正整数，则只替换前 count 次匹配

4、re.split() 方法中，maxsplit 这是一个可选参数，指定了分割的最大次数。

下面就来演示上述方法的使用。

match方法的使用：

import re

# 这里的r是代表当前字符串中的转义字符是不能其作用的
# 例如，普通字符串：'\d' -> 表示是十进制的数字
# r普通字符串：r'\d' -> 表示两个字符 \ 与 d
pattern = r'hello' 
string1 = 'hello world'
string2 = '123 hello world'

# match方法代表是从字符串的开始位置匹配
# string1的开始位置是包含hello的，可以匹配成功，因此match1返回一个Match对象
# string2的开始位置是不包含hello的，匹配失败，因此match2返回None
match1 = re.match(pattern, string1)
match2 = re.match(pattern, string2)

print(match1)
print(match2)

运行结果：

匹配成功会返回一个Match对象，如果我们想要将 Match对象其中的某些部分给单独拿出来的话，就可以使用下面的方法：

print(match1.re) # 输出正则表达式
print(match1.string) # 输出待匹配的字符串
print(match1.group()) # 输出匹配成功的字符串
print(match1.span()) # 输出匹配成功的字符串的索引范围

运行结果：

search方法的使用

import re

pattern = r'hello'
string1 = 'hello world'
string2 = '123 hello world'

# search方法是在整个字符串中去匹配
# string1 与 string2 都是包含hello的，因此都可以匹配成功
match1 = re.search(pattern, string1)
match2 = re.search(pattern, string2)

print(match1)
print(match2)

运行结果：

findall方法的使用

import re

pattern = r'hello'
string1 = 'hello world--hello python'
string2 = '123 hello world--hello python'

# findall方法也是在整个字符串中去匹配，但是它会匹配所有的结果，并返回一个列表
# string1 与 string2 都是包含hello的，因此都可以匹配成功
match1 = re.findall(pattern, string1)
match2 = re.findall(pattern, string2)

print(match1)
print(match2)

运行结果：

sub方法的使用

import re

pattern = r'hello'
string1 = 'hello world--hello python'
string2 = '123 hello world--hello python'

# sub方法是替换字符串中的匹配项
# 将string1与string2中的pattern部分替换为'I love'
match1 = re.sub(pattern, 'I love',string1)
match2 = re.sub(pattern, 'I love',string2)

print(match1)
print(match2)

运行结果：

split方法的使用

import re

pattern = r'--'
string1 = 'hello world--hello python'
string2 = '123 hello world--hello python'
string3 = '123 hello world  hello python'

# split方法是按照pattern分割字符串，并返回一个列表
# string1 与 string2 都是包含--的，因此都可以分割成功
match1 = re.split(pattern, string1)
match2 = re.split(pattern, string2)
# string3 没有--，因此无法分割成功，但是最终的结果还是一个列表
match3 = re.split(pattern, string3)

print(match1)
print(match2)
print(match3)

运行结果：

上面代码都是对上述方法的一个简单使用，具体还有一些细节这里也就不再演示，大家可以自己去编写代码实践。

视频代码解读

下面是关于 Python子木 up主的视频中一些可能有困惑的地方解释。

章节选择题

章节实战

1、使用列表存储一些商品数据，使用循环遍历输出商品信息，要求对商品的编号进行格式化为6位，单价保留2位小数，并在前面添加人民币符号输出。

运行效果：

思路：直接将数据存储到列表中，然后我们直接去遍历列表即可。但是这里的难点就是这么样格式化输出这些数据。

如果将编号这些数据头也存储在列表中的话，有两点不合适的地方：1、列表是用来存储有效数据的，如果存着编号这些数据有点别扭，并且在后面处理的时候还要额外判断，十分麻烦；2、无法实现对齐输出。因此我们是先将数据头在最开始的地方输出。接着就是要将编号与单价按照要求格式化。最简单也是最暴力的方式，将对应位置的数据全部拿出来，直接进行修改。例如，在编号数据前面加上四个零即可；在单价前面加上￥，然后再对数据 .2f 的输出即可。

代码实现：

goods = [
    ['01', '电风扇', '美的', 500],
    ['02', '洗衣机', 'TCL', 1000],
    ['03', '微波炉', '老板', 400]
         ]
print('编号\t\t名称\t\t\t品牌\t\t单价')
# 遍历列表
for item in goods: # item是一个一维列表
    for j in item:
        print(j,end='\t\t')
    print()
# 在上述基础上，进行暴力的格式化操作即可
for item in goods: # item是一个一维列表
    # item[0] 是编号，item[3]是单价
    item[0] = '0000'+item[0]
    # 注意这里操作的单价要是int或float类型，而不能是字符串
    item[3] = '￥{0:.2f}'.format(item[3])

print('编号\t\t\t名称\t\t\t品牌\t\t单价')
for item in goods: # item是一个一维列表
    for j in item:
        print(j,end='\t\t')
    print()

好啦！本期初始Python篇（7）—— 正则表达式的学习之旅就到此结束啦！我们下一期再一起学习吧！