python爬虫之基本解析库和选择器

本文介绍常用HTTP库如urllib、httplib2、requests的功能与使用,涵盖请求发送、异常处理、URL解析、robots协议分析等。同时,探讨了通过css选择器和XPath在网页中定位和提取数据的方法。

基本库,常用的http库urllib,httplib2,requests
urllib的四大模块,
request请求网址,
error异常处理,
parse:url处理,拆分,解析,合并,
robotparser
request.BaseHandler的子类
Handler:处理器,登录验证,cookie,代理设置,
主要是处理发送请求,用户名密码认证,代理的添加和利用,cookie的下载和调用
还有CA认证的相关处理方法。及异常的处理,
url的解析,格式:协议://域名/路径;参数?query#fragment
robots协议的分析,下载看是否可以抓取
requests处理cookie,登录验证,代理设置

选择器
在css中通过css选择器定位节点,分别根据#id,.class,标签名筛选
嵌套选择如:#id.class p.text最后选取内部class为text的p节点
css选择器更多的语法规则见官方

另一种选择器为XPath
bs
节点选择器使用节点的名称选择节点元素soup.
方法选择器find_all()和find()传入属性或则文本
css选择器ul li

pyquery,更加强大的css选择器
1,初始化,字符串初始化,URL初始化,文本初始化。
2,基本的css选择器
3,查找节点如直接子节点,子孙节点
4,遍历,itms( )
5,获取信息属性attr( ),和文本text( )获取全部,html( ),获取单个,需遍历
6,节点操作、对节点进行动态修改,添加class,remove,node
addClass,removeClass,attr( ),text( ),html( ),remove
7,伪类选择器,例如,第一个,最后一个,偶数的
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值