前三节我们基本掌握了抓取整个⽹⻚的基本技能,但是,还是第一节说的话,大多数情况下, 我们并不需要整个⽹⻚的全部内容,而是仅仅其中一小部分。在抽丝剥茧,挑出最需要的那部分数据时就需要合理利用一些数据提取工具,常用且非常好用的3个解析工具隆重出场。
1. re解析,又叫正则表达式,这个很重要,可以做几乎所有你想解析的事情,难度也最大;
2. bs4解析,如果说re是常规手段解决问题,那么bs4就是利用灵巧的手段解决部分具体问题;
3. xpath解析,那就再灵活一点,代码短了,但是理解起来也会难度大一点。
接下来我会详细介绍一下这三种解析方式。

1.1 正则表达式(regular expression)
一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。简而言之,⼀种使⽤表达式的⽅式对字符串进⾏匹配的语法规则。我们抓取到的⽹⻚源代码本质上是⼀个超⻓的字符串,正则表达式正是对字符串进行加工处理,抽取解析的一大利器。所以,学会编写正则表达式的逻辑关系是重点。
1.2构造正则表达式
构造正则表达式的方法和创建数学表达式的方法一样。通过多种元字符与运算符将多个小运算组合成一个大运算。那么我先介绍下有一些常用的元字符。
. 匹配除换⾏符以外的任意字符
\w 匹配字⺟或数字或下划线
\s 匹配任