网络爬虫-正则表达式

正则表达式的用途:

  1. 给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);
  2. 可以通过正则表达式,从字符串中获取我们想要的特定部分(称作“提取”)。

正则表达式的特点:

  1. 灵活性、逻辑性和功能性非常的强;
  2. 可以迅速地用极简单的方式达到字符串的复杂控制。

网络爬虫通过灵活的使用正则表达式,从网页中提取数据。下面将总结正则表达式在网络爬虫中的应用。
网络爬虫中使用正则表达式需要注意的事项:
1、有些字符在正则表达式中有特殊的含义,在使用时要进行转义(转义的目的就是要标明那个字符就是字符本身,不是正则表达式中特殊含义的字符)。
例:“.”不转义就代表匹配任意一个字符,转义后“\.”就代表“.”字符本身。
2、因为“\”本身就需要转义,所以要用“\\”。
3、对于比较复杂的内容可以进行多次匹配,先匹配出一个比较大的范围A,在从A中匹配出小的范围B
4、匹配到的内容超出我们想要匹配范围或者匹配到多条数据的时候,可以扩大匹配范围从上一级标签匹配,从而精准的匹配到数据。
5、要将多个正则表达式拼接成一个正则表达式可以使用(?:.*?)连接两个字符串
6、匹配()里面的内容:\((.*?)\)
7、匹配()和()里面的内容:(\(.*?\))
8、“*”(零或多次)“+”(一次或多次),使用“+”必须要匹配到一个,如果匹配不到会出错,所以视情况而定,可以使用“*”当匹配不到内容的时候不会报错。
常用正则表达式:
(\d+) 匹配数字
(.+?) 匹配一段字符串
\s 匹配空格
(?:pattern)匹配pattern但不匹配结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值