Python 正则表达式笔记(1) 常见字符

本文介绍了正则表达式的四个核心组成部分:元字符、限定符、反义和懒惰限定符。详细解释了各种元字符的功能及其应用场景,如匹配特定字符、指定字符数量以及定位字符串边界等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

常见字符

正则表达式对查找符合些复杂规则的字符是十分强大的,它是由一些元字符组成。元字符主要有四种作用:匹配字符,匹配数量,匹配模式,匹配位置
1. 元字符
下面介绍一些常见元字符

元字符含义
.匹配除换行符以外的任意字符
\b匹配单词的开始或介绍
\d匹配数字
\w匹配字母、数字、下划线或汉字
\s匹配任意空白符,包括空格、制表符(Tab)、换行符、中文全脚空格等
^匹配字符串的开始
$匹配字符串的结束

注:\b 是匹配单词,^,$匹配的是字符串。
2. 限定符

限定符含义
*重复零次或更多次
+重复一次或更多次
重复零次或一次
{n}重复n次
{n,}重复n次或更多次
{n,m}重复n次到m次

3. 反义
查找除了某一类字符之外的字符

代码含义
\W匹配任意不是字母、数字、下划线、汉字的字符
\S匹配任意不是空白符的字符
\D匹配任意非数字的字符
\B匹配不是单词开头或结束的位置
[^a]匹配除了a以外的任意字符
[^abcde]匹配除了a、b、c、d、e这几个字母以外的任意字符
[^(123|abc)]匹配除了1、2、3或者a、b、c这几个字符以外的任意字符

4. 懒惰限定符

语法含义
*?重复任意次,但尽可能少重复
+?重复1次或更多次,但尽可能少重复
??重复0次或1次,但尽可能少重复
(n,m)?重复n到m次,但尽可能少重复
(n,)?重复n次以上,但尽可能少重复

懒惰限定符通常会尽可能匹配多个字符,在爬虫过程中,经常使用懒惰限定符中的*?

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值