【1】先确定是否为动态加载网站
【2】找URL规律
【3】正则表达式 | xpath表达式
【4】定义程序框架,补全并测试代码
1、request是什么
Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比,Requests更加方便,可以节约我们大量的工作,建议爬虫使用Requests库。
2、request爬取格式
【1】方法一 : requests.get()
【2】参数
2.1) url
2.2) headers
2.3) timeout
2.4) proxies
【3】方法二 :requests.post()
【4】参数
data
2.1request
①request.get

②request.post

2.2response
response方法,response方法 获取网页的解码字符串 通过上述例子我们可以看到,不管是get请求还是post请求,我们得到的返回都是一个Response[200]的对象,但是我们想要得到的,应该是与网页response下一样的字符串对象,这时就需要用到response的方法了。response.text:获取网页的HTML字符串,该方式往往会出现乱码,出现乱码使用response.encoding='utf-8'


定制headers

本文介绍了Python中的Requests库,它是基于urllib的一个高效HTTP库。Requests提供了get和post两种方法进行网页抓取,并详细讲解了headers、timeout和proxies等参数的使用。同时,文中提到了如何处理响应的text内容,以及避免乱码的方法。对于初学者来说,Requests是进行网络爬虫开发的理想选择。
686

被折叠的 条评论
为什么被折叠?



