正则表达式

博客介绍了正则表达式的用途,如判断用户数据、清洗爬取数据等。重点讲解了Python中使用正则表达式的re模块,包括匹配单个字符、多个字符、分组,以及re.match()、re.search()、re.findall()、re.sub()、re.split()等常用方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正则表达式

  • 可以判断用户数据是否符合自己的要求
  • 清洗从网站上爬下来的数据

re模块

  • 在 Python 中使用正则表达式时,需要用到 re 模块,使用如下:
# 导入re模块
    import re

    # 使用match方法进行匹配操作
    result = re.match(正则表达式,要匹配的字符串)

    # 如果上一步匹配到数据的话,可以使用group方法来提取数据
    result.group()

匹配单个字符

字符功能
^匹配字符串的开头
$匹配字符串的结尾
.匹配任意1个字符(除了\n)
[ ]匹配[ ]中列举的字符
\d匹配数字,即0-9
\D匹配非数字,即不是数字
\s匹配空白,即 空格,tab键
\S匹配非空白
\w匹配单词字符,即a-z、A-Z、0-9、_
\W匹配非单词字符

匹配多个字符

字符功能
*匹配前一个字符出现0次或者无限次,即可有可无
+匹配前一个字符出现1次或者无限次,即至少有1次
?匹配前一个字符出现1次或者0次,即要么有1次,要么没有
{m}匹配前一个字符出现m次
{m,n}匹配前一个字符出现从m到n次

匹配分组

字符功能
|匹配左右任意一个表达式
(ab)将括号中字符作为一个分组
\num引用分组num匹配到的字符串
(?P<name>)分组起别名
(?P=name)引用别名为name分组匹配到的字符串

re.match()

  • 可实现从头开始匹配

例1:

import re

def main():
    """匹配变量名是否符合要求"""
    names = ["age", "_age", "1age", "age1", "age!"]
    for name in names:
        ret = re.match(r"^[a-zA-z_][a-zA-Z0-9_]*$", name)
        if ret:
            print("变量名:%s 符合要求...." % name)
        else:
            print("变量名:%s 不符合要求....." % name)

if __name__ == '__main__':
    main()

例2:

import re

def main():
   """匹配163的邮箱地址"""
   email = input("请输入邮箱:")
    # 反斜杠\转义,可以用.?等
    ret = re.match(r"^[0-9a-zA-Z_]{4,20}@163\.com$", email)
    if ret:
        print("%s 符合要求,匹配后的结果是:%s" % (email, ret.group()))
    else:
        print("%s 符合要求,请正确输入...")

if __name__ == '__main__':
    main()

例3

import re

# 能够完成对正确的字符串的匹配
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
print(ret.group())

# 如果遇到非正常的html格式字符串,匹配出错
ret = re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</htmlbalabala>")
print(ret.group())

# 正确的理解思路:如果在第一对<>中是什么,按理说在后面的那对<>中就应该是什么

# 通过引用分组中匹配到的数据即可,但是要注意是元字符串,即类似 r""这种格式
ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
print(ret.group())

re.search()

  • 不会从头开始匹配
import re

ret = re.search(r"\d+", "阅读次数为 9999")
ret.group()

运行结果:

'9999'

re.findall()

  • 该方法直接返回一个列表,不需用 group()
import re

ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)

运行结果:

['9999', '7890', '12345']

re.sub()

  • 将匹配到的数据进行替换,不需要用 group()
import re

ret = re.sub(r"\d+", '998', "python = 997")
print(ret)

运行结果:

python = 998
  • 用函数
import re

def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

ret = re.sub(r"\d+", add, "python = 997")
print(ret)

ret = re.sub(r"\d+", add, "python = 99")
print(ret)

运行结果:

python = 998
python = 100

re.split()

  • 根据匹配进行切割字符串,并返回一个列表,不需要用 group()
import re

# 按:或者空格 来切割
ret = re.split(r":| ","info:xiaoZhang 33 shandong")
print(ret)

运行结果:

['info', 'xiaoZhang', '33', 'shandong']

END…

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值