python爬虫第七节:正则表达式

本文深入解析正则表达式的概念、使用及Python re库的高级应用,涵盖编译、语法、贪婪匹配等内容,助您掌握高效文本处理技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.正则表达式的概念:

正则表达式优势:简洁、“一行胜千言”、表示了一组字符串的特征或者模式

例如:


2.正则表达式的使用:

(1)正则表达式,说到底,刚开始还是一个字符串,我们需要对这一个字符串进行编译,
即:将符合正则表达式语法的字符串转换成正则表达式特征。
(2)编译前这个表达式就是一个普通的字符串,只不过满足了正则表达式的语法,
编译之后,它才真正成为正则表达式。

3.正则表达式的语法

语法实例:

经典正则表达式:

匹配 IP 地址的正则表达式:

4. re库的基本使用

re库,是python标准库,直接import re即可
原生字符串,例(电话号码):

字符串,例:


因而,当正则表达式中包含转义符的时候,用raw string来表示较好。

re库主要功能函数:

re.M:  ^操作符指:只匹配正则表达式的开始部分,但是如果我们设置了re.M标记,它可以设置字符串的每行的开始部分。如果这个正则表达式匹配的是一篇文章,那么我们可以从这篇文章的每一行开始匹配。

re.S  能让.操作符匹配所有字符。在默认操作中,.操作符本身就能匹配除了换行符之外所有字符,设置re.S后,这一限制没有了。


re库的另一种等价用法:

可以用这种方式加快程序的运行。一次编译之后,用regex对应的6种方法就可以了,每次不需要再写正则表达式。

三种方法返回match对象:

5. re库的match对象

match对象就是一次匹配的结果,包含了很多相关信息。

例如:

除了 group(0) 还有group(1)(2)等等,但是不常用。

例如:

6. re库的贪婪匹配和最小匹配

 

7. 总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值