Python爬虫(四)——正则表达式

前三节我们基本掌握了抓取整个⽹⻚的基本技能,但是,还是第一节说的话,大多数情况下, 我们并不需要整个⽹⻚的全部内容,而是仅仅其中一小部分。在抽丝剥茧,挑出最需要的那部分数据时就需要合理利用一些数据提取工具,常用且非常好用的3个解析工具隆重出场。
1. re解析,又叫正则表达式,这个很重要,可以做几乎所有你想解析的事情,难度也最大;
2. bs4解析,如果说re是常规手段解决问题,那么bs4就是利用灵巧的手段解决部分具体问题;
3. xpath解析,那就再灵活一点,代码短了,但是理解起来也会难度大一点。
接下来我会详细介绍一下这三种解析方式。


1.1 正则表达式(regular expression)

 

一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。简而言之,⼀种使⽤表达式的⽅式对字符串进⾏匹配的语法规则。我们抓取到的⽹⻚源代码本质上是⼀个超⻓的字符串,正则表达式正是对字符串进行加工处理,抽取解析的一大利器。所以,学会编写正则表达式的逻辑关系是重点。


1.2构造正则表达式

构造正则表达式的方法和创建数学表达式的方法一样。通过多种元字符与运算符将多个小运算组合成一个大运算。那么我先介绍下有一些常用的元字符。

 . 匹配除换⾏符以外的任意字符
\w 匹配字⺟或数字或下划线
\s 匹配任
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值