基本库,常用的http库urllib,httplib2,requests
urllib的四大模块,
request请求网址,
error异常处理,
parse:url处理,拆分,解析,合并,
robotparser
request.BaseHandler的子类
Handler:处理器,登录验证,cookie,代理设置,
主要是处理发送请求,用户名密码认证,代理的添加和利用,cookie的下载和调用
还有CA认证的相关处理方法。及异常的处理,
url的解析,格式:协议://域名/路径;参数?query#fragment
robots协议的分析,下载看是否可以抓取
requests处理cookie,登录验证,代理设置
选择器
在css中通过css选择器定位节点,分别根据#id,.class,标签名筛选
嵌套选择如:#id.class p.text最后选取内部class为text的p节点
css选择器更多的语法规则见官方
另一种选择器为XPath
bs
节点选择器使用节点的名称选择节点元素soup.
方法选择器find_all()和find()传入属性或则文本
css选择器ul li
pyquery,更加强大的css选择器
1,初始化,字符串初始化,URL初始化,文本初始化。
2,基本的css选择器
3,查找节点如直接子节点,子孙节点
4,遍历,itms( )
5,获取信息属性attr( ),和文本text( )获取全部,html( ),获取单个,需遍历
6,节点操作、对节点进行动态修改,添加class,remove,node
addClass,removeClass,attr( ),text( ),html( ),remove
7,伪类选择器,例如,第一个,最后一个,偶数的
本文介绍常用HTTP库如urllib、httplib2、requests的功能与使用,涵盖请求发送、异常处理、URL解析、robots协议分析等。同时,探讨了通过css选择器和XPath在网页中定位和提取数据的方法。
1万+

被折叠的 条评论
为什么被折叠?



