python爬虫Request

最新推荐文章于 2024-07-17 00:15:00 发布

原创最新推荐文章于 2024-07-17 00:15:00 发布 · 1.7k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

本文介绍了Python中的Requests库，它是基于urllib的一个高效HTTP库。Requests提供了get和post两种方法进行网页抓取，并详细讲解了headers、timeout和proxies等参数的使用。同时，文中提到了如何处理响应的text内容，以及避免乱码的方法。对于初学者来说，Requests是进行网络爬虫开发的理想选择。

【1】先确定是否为动态加载网站
【2】找URL规律 
【3】正则表达式 | xpath表达式 
【4】定义程序框架，补全并测试代码

1、request是什么

Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。与urllib相比，Requests更加方便，可以节约我们大量的工作，建议爬虫使用Requests库。

2、request爬取格式

【1】方法一 : requests.get()
【2】参数
   2.1) url
   2.2) headers
   2.3) timeout
   2.4) proxies

【3】方法二 ：requests.post()
【4】参数
    data

2.1request

①request.get

②request.post

2.2response

response方法，response方法获取网页的解码字符串通过上述例子我们可以看到，不管是get请求还是post请求，我们得到的返回都是一个Response[200]的对象，但是我们想要得到的，应该是与网页response下一样的字符串对象，这时就需要用到response的方法了。response.text：获取网页的HTML字符串，该方式往往会出现乱码，出现乱码使用response.encoding='utf-8'