Python爬虫-3-正则匹配

本文介绍了Python爬虫中正则表达式的应用,包括内容匹配和长度匹配。讲解了各种正则符号如`d`, `s`, `w`等的用法,以及`*`, `+`, `?`, `{n,m}`等表示的匹配次数。还提到了`findall`, `search`, `match`等正则匹配方法,并探讨了组匹配和贪婪与反贪婪的概念。最后,通过实例展示了如何使用正则从网页中提取图片地址。" 131747626,222900,Hudi HoodieMultiTableDeltaStreamer 多表接入 CDC 数据测试及问题解析,"['hudi', 'deltastreamer', 'cdc', 'MultiTable']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

匹配分类

我们在爬虫学习过程当中,大部分时候服务器返回给我们的是html,我们需要从HTML当中将数据过滤出来。所以我们需要学习字符串的匹配

1.按照匹配内容进行描述

正则匹配:内容的类型和内容的长度匹配

 

2.按照匹配结构进行描述

Xpath lxml:结构特征匹配

安装:pip install lxml

 

3.综合性的匹配

Beautifulsoup:就是可以同时进行结构和内容的匹配

安装:pip install beautifulsoup4

 

正则匹配

正则是通过对字符串内容描述来进行匹配的高级字符串处理方式

简单的匹配结构:字符串的split、replace方法

 

1.正则内容匹配

\d  数字

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值