正则表达式是什么
正则表达式实际上是一串字符串,其中的一些字符有特殊含义。利用正则表达式可以搜索匹配一些有规律的字符串,可以从大量的数据中匹配具有一定规律的数据,将其提取出来。
基本语法
- . 点号代表除了换行符以外的任何字符
- * 星号前的一个字符可以出现0到无数次
- ? 问号前的一个字符可以出现0或者1次
- \d 数字
- \w 字符
- ^ 表明从字符串的开始位置进行匹配
- $ 表明从字符串的尾部位置进行匹配
还有一些没有列出,具体请自行搜索
python3中的正则表达式模块
python3中有一个re模块是正则表达式模块,在学习python3的模块时,无论什么模块最好看一下其模块的源码,可以更深入的理解其模块
import re
# 通过正则表达式匹配数据,pattern为正则表达式,content为数据源
# 这里的findall方法与bs4中的find_all方法不是一个
re_list = re.findall(pattern, content)
"""
findall函数与compile函数的区别:
findall函数是在字符串中匹配数据,然后返回。findall函数先调用_compile()方法,再调用findall
compile函数返回的是一个正则表达式对象,compile只是调用的_compile
"""