匹配分类
我们在爬虫学习过程当中,大部分时候服务器返回给我们的是html,我们需要从HTML当中将数据过滤出来。所以我们需要学习字符串的匹配
1.按照匹配内容进行描述
正则匹配:内容的类型和内容的长度匹配
2.按照匹配结构进行描述
Xpath lxml:结构特征匹配
安装:pip install lxml
3.综合性的匹配
Beautifulsoup:就是可以同时进行结构和内容的匹配
安装:pip install beautifulsoup4
正则匹配
正则是通过对字符串内容描述来进行匹配的高级字符串处理方式
简单的匹配结构:字符串的split、replace方法
1.正则内容匹配
\d 数字