python爬取身份证信息、爬取ip代理池

 

匹配的分类

按照匹配内容进行匹配

              我们在匹配的过程当中,按照要匹配的内容的类型和数量进行匹配

              比如:

                     匹配手机号:匹配以1开头的11位数字

              Re

       按照匹配结构进行匹配    

              我们我们在匹配的过程当中,按照要匹配的内容在整个数据当中的结构进行匹配

              比如:

                     匹配手机号:匹配phone:之后的值

              Xpath

       Beautifulsoup 是一个匹配的结合体,我们使用beautifulsoup可以完成内容和结构任意匹配。

       内容匹配,匹配繁琐,匹配精度高

       机构匹配,匹配精度不高,匹配效率高,一定是成结构的字符

re正则

正则是通过对字符串内容描述进行数据筛选的高级字符串处理方式

在学习Python爬虫的时候,初学同学会认为非正则不可,其实一部分简单的匹配结构用的最多的方法是字符串的:split、replace方法

内容的类型

       #每个类型默认匹配1次

       \d 匹配数字

       \D 匹配非数字

       \s 匹配空格

       \S 匹配非空格

       \w 匹配字母、数字、下划线

       \W 匹配非字母、数字、下划线

       []  匹配任意字符

       |  匹配任意一端

       [^] 匹配非

       .  匹配任意非换行的字符

       ^ 匹配开头

       $ 匹配结尾

       () 组匹配

内容的长度

       长度描述居于内容描述之后

       如果有多次,指尽量多的匹配

       如果匹配0次,代表没有匹配到

                     *  匹配0到多次

                  &n

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值