本次我们讲讲re正则表达式。那讲到re正则表达式的话,难免就需要跟其他的解析库做下对比。如下表
lxml库、正则表达式和BeautifulSoup库对比
| 工具 | 解析速度 | 难度 |
|---|---|---|
| BeautifulSoup4 | 最慢 | 最简单 |
| lxml | 快 | 简单 |
| 正则表达式 | 最快 | 难 |
大家可以了解一下大概情况。我对这表的理解是,lxml库速度快有部分原因是因为c语言编写的,而BeautifulSoup4库是第三方库,慢也可以理解,毕竟三种方式它的难度是最低的。re正则表达式呢,有多难呢:正则表达式可能你刚写完,出去吃个饭回来,有可能你就要斟酌斟酌自己刚刚为何这样写这式子。。。(雾)
re正则表达式语法总结
| 表达式 | 语法 |
|---|---|
| . (点号) | 匹配任意字符(除了换行符\n) |
| \d | 匹配任意数字 |
| \D | 匹配任意非数字 |
| \s | 匹配空白字符(\n,\t,\r,空格) |
| \w | 匹配a-z,A-Z,数字和下划线 | <

本文介绍了Python的re正则表达式,通过与lxml库、BeautifulSoup库对比,阐述了正则表达式的复杂性。文章提供了一个邮箱正则表达式的实例,详细分析了登录名、主机名和域名的构成,并给出完整的邮箱正则表达式。同时,提到了转义字符在正则表达式中的应用,并推荐了一个在线正则表达式测试网站。
最低0.47元/天 解锁文章
4619

被折叠的 条评论
为什么被折叠?



