python爬虫里的正则匹配简单使用

博客介绍了Python中正则表达式的应用。一是用正则表达式从包含三种形式的url列表中选取目标网站的url;二是展示了使用re.match函数进行字符串分析,如匹配无内容标题和数字开头的字符串,并返回布尔值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一:正则选取有特定规律的网页

f=['http://zhongyaofangji.com/yaofang/acaitang.html', 'http://zhongyaofangji.com/yaofang/alajijiu.html', 
'http://zhongyaofangji.com/yaofang/book-bojifang.html',
'http://zhongyaofangji.com/#A']

#首先要分析链接,这个url列表中一共有三种形式的url,分别为目标网站(http://zhongyaofangji.com/yaofang/+items+.html)、干扰网站(http://zhongyaofangji.com/yaofang/+book-开头+.html和http://zhongyaofangji.com/#A)。我们可以用正则表达式将目标url选出来。

import re
f=['http://zhongyaofangji.com/yaofang/acaitang.html', 'http://zhongyaofangji.com/yaofang/alajijiu.html', 
'http://zhongyaofangji.com/yaofang/book-bojifang.html',
'http://zhongyaofangji.com/#A']
for key in f:
    if re.match(r"^http://zhongyaofangji.com/yaofang/[a-z]*.html$",key):
        print(key)


#http://zhongyaofangji.com/yaofang/acaitang.html
#http://zhongyaofangji.com/yaofang/alajijiu.html

二:正则表达式分析字符串

re.match(r' 正则表达式 ',内容) #返回布尔值

1. re.match(r'^【.*】$',content)  #正则匹配无内容标题

2. re.match(r'^\d',content)    #正则匹配数字开头字符串

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值