总结5 （http协议与chorme抓包，cookie,ajax加载爬取）

最新推荐文章于 2024-04-11 11:02:57 发布

原创最新推荐文章于 2024-04-11 11:02:57 发布 · 4.1k 阅读

5 ·

CC 4.0 BY-SA版权

网络爬虫专栏收录该内容

35 篇文章

订阅专栏

本文深入解析HTTP请求中的GET与POST区别，请求头参数如User-Agent、Referer和Cookies的使用，及响应状态码含义，帮助理解HTTP协议的工作机制。

get 请求：从服务器获取数据，并不会对服务器资源产生影响的，使用get请求（一般情况）

post请求：向服务器发送数据（登录），上传文件等。会对服务器的资源产生影响的。

请求头常见参数
在nttp协议中,向服务器发送一个请求,数据分为三部分,第一个是把数据放在ur中,第二个是把数据放在body中(在post请求中),第三个就是把数据放在head中。这里介绍在网络各爬虫中经常会用到的一些请求头参数:1.user- Agent:浏览器名称。这个在网络肥虫中经常会被使用到。请求一个网页的时候,服务器通过这个参数就可以知道这个请求是由哪种浏览器发送的。如果我们是通过爬虫发送请求,那么我们的uer- Agent就是 Python,这对于那些有反爬虫机制的网站来说,可以轻易的判断你这个请求是爬虫。因此我们经常设置这个值力一些浏览器的值,来伪装我们的肥虫2. Referer:表明当前这个请求是从哪个url过来的,这个一般也可以用来做反爬虫技木。如果不是从指定西面过来的,那么就不做相关的响应。
3cookies:"http协议是无状态的,也就是同一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人。因此这时候就用 cookies来做标识。一般如果想要做登录后才能访问的网站,那么就需要发送 cookies信息了。

常见响应状态码:
1. 200:请求正常,服务器正常的返回数据。
2. 301:永久重定向。

3. 302:临时重定向。比加在访问一个需要登录的页面的时候,而此时没有登录,那么就会重定向到登录页面。

4. 400:请求的ur1在服务器上找不到。换句话说就是请求url错误。

5. 403:服务器拒绝访问,权限不够。
6 . 500:服务器内部错误。可能是服务器出现bug了\

什么是 cookie:
在网站中http请求是无状态的。也就是说即使第一次和服务端连接后并且置录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。 cookie的出现就是为了解决这个问题,第一次置录后服务器返回一些数据( cookie)给浏览器,然后测览器保存在本地,当该用户发送第二次请求的时候,就会自动的把上次请求存储的 cookie数据自动的携带给服务器,服务器通过浏览器携带的数据就能判断当前用户是哪个了。 cookie存储的数据量有限,不同的浏览器有不同的存储大小,但一般不超过4KB。因此使用 cookie只能存储一些小量的数据。

cookie的格式: Set-Cookie: NAME=VALUE: Expires/Max-age=DATE: PathaPATH: Domain=DOMAIN NAME: SECURE。详细解释看下面

cookie参数意义
NAME:cokie的名字
VALUE: cookie的值。
Expires:coke的过期时间。有过期时间的。
Path: cookie作用的路径。
Domain: cookie作用的域名。SECURE:是否只在http协议下起作用，cookies是会限制那个域名使用的。

http.cookiejar模块
该模块主要的类有 CookieJar,FileCookieJar, MozillacookieJar,LwPCookieJar,这四个类的作用分别如下:

1.CookieJar管理Http cookie值、存储http请求生成的cookie,向传出的http请求添加oke的对像,整个cookie都存储在内存中,对CookieJar实例进行垃圾回收后cookie也将丢失

2. FileCoakieJar(filename,delaylosd-None),从cookiejar派生而来,用来创建cookieJar实例,检索cookie信息并从
将cookie存储到文件中,filename是存储的文件名,delayload为True时支持延迟访防问文件,只有在需要时才读取文件或在文件中存储数据。
3. MozillaCookieJar (filename. delayload=None, policy=None):从 File CookieJar派生而来,创建与Mozilla浏览器cookies. txt兼容的File CookieJar实例。
4. LWPCookieJar(filename. delayload= None, policy=None):从 File CookieJan派生而来,创建与 ibwwwperl标准的 Set- Cookie3文件格式兼容的 File CookieJar实例。