一、介绍:
- 正则表达式是用来简洁表达一组字符串的表达式
- 正则表达式是一种通用的字符串表达框架
- 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
- 正则表达式可以用来判断某字符串的特征归属
二、语法:
正则符号 |
含义 |
. |
表示任何单个字符 |
[ ] |
字符集,对单个字符给出取值范围 ,如[abc]表示a、b、c,[a‐z]表示a到z单个字符 |
[^ ] |
非字符集,对单个字符给出排除范围 ,如[^abc]表示非a或b或c的单个字符 |
* |
前一个字符0次或无限次扩展,如abc* 表示 ab、abc、abcc、abccc等 |
+ |
前一个字符1次或无限次扩展 ,如abc+ 表示 abc、abcc、abccc等 |
? |
前一个字符0次或1次扩展,如abc? 表示 ab、abc |
| |
左右表达式任意一个,如abc|def 表示 abc、def |
{m} |
扩展前一个字符m次,如ab{2}c表示abbc |
{m,n} |
扩展前一个字符m至n次(含n) ,如ab{1,2}c表示abc、abbc |
^ |
匹配字符串开头,如^abc表示abc且在一个字符串的开头 |
$ |
匹配字符串结尾,如abc$表示abc且在一个字符串的结尾 |
( ) |
分组标记,内部只能使用|操作符,如(abc)表示abc,(abc|def)表示abc、def |
\d |
数字,等价于[0‐9] |
\w |
单词字符,等价于[A‐Za‐z0‐9_] |
- re库的使用
1、调用方式:
import re
2、re库表达式
re库采用raw string类型表示正则表达式,表示为:r'text',raw string是不包含对转义符再次转义的字符串;
re库的主要功能函数:
函数名 |
函数说明 |
函数定义 |
re.search() |
在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象 |
re.search(pattern, string, flags=0) |
re.match() |
从一个字符串的开始位置起匹配正则表达式,返回match对象 |
re.match(pattern, string, flags=0) |
re.findall() |
搜索字符串,以列表类型返回全部能匹配的子串 |
re.findall(pattern, string, flags=0) |
re.split() |
将一个字符串按照正则表达式匹配结果进行分割,返回列表类型 |
re.split(pattern, string, maxsplit=0, flags=0) |
re.finditer() |
搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象 |
re.finditer(pattern, string, flags=0) |
re.sub() |
在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串 |
re.sub(pattern, repl, string, count=0, flags=0) |
- 某第商品比价定向爬虫
爬取思路:
- 提交商品搜索请求,循环获取页面
- 对于每个页面,提取商品名称和价格信息
- 将信息输出到屏幕上
1、提交商品搜索请求,循环获取页面
2、对于每个页面,提取商品名称和价格信息
3、将信息输出到屏幕上
4、结果如下