HTTP协议简介
HTTP是Hyper Text Transfer Protocol的缩写,意为超文本传输协议。它是基于TCP/IP协议的应用层传输协议,采用了请求/响应模式,客户端发送请求,服务端针对请求向客户端响应对应的数据。简单来说HTTP就是客户端与服务端之间传输数据的一种协议。默认端口是80。
HTTP是一种无状态协议,它不会对通信状态进行持久化记录,这样做也保证了HTTP的简单性,能够让HTTP快速处理大量请求,提高效率。也可以通过一些技术手段记录通信状态,比如cookie、session等。
HTTP是无连接的,限制每次连接只处理一个请求,服务器处理完客户端的请求,并接收到客户端应答后就断开连接。在HTTP 1.0版本默认关闭Keep-Alive保持连接,在HTTP 1.1版本后默认打开Keep-Alive保持连接,能够在处理一个请求后继续保持连接一段时间,如果时间内还收到客户端的请求就继续使用之前的连接,如果一定时间内没有客户端的请求就断开连接。
HTTP请求
请求数据结构
客户端发送一个HTTP请求到服务器的请求消息包括以下格式
请求行(request line)、请求头部(header)、空行和请求数据四个部分组成。

请求方法
根据 HTTP 标准,HTTP 请求可以使用多种请求方法。
HTTP1.0 定义了三种请求方法: GET, POST 和 HEAD方法。
HTTP1.1 新增了六种请求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。

URL
格式:protocol://hostname[:port] /path/[:parameters][?query]#fragment
protocol(协议)
指定使用的传输协议,下表列出 protocol 属性的有效方案名称。 最常用的是HTTP协议,它也是WWW中应用最广的协议。常用协议:
file资源是本地计算机上的文件。格式file:/// 注意后边应是三个斜杠。
ftp 通过 FTP访问资源。格式 FTP://
http 通过 HTTP 访问该资源。 格式 HTTP://
https 通过安全的 HTTPS 访问该资源。 格式 HTTPS://
mailto 资源为电子邮件地址,通过 SMTP 访问。 格式 mailto:
MMS 通过 支持MMS(流媒体)协议的播放该资源。格式 MMS://
hostname(主机名)
是指存放资源的服务器的域名系统(DNS) 主机名或 IP 地址。有时,在主机名前也可以包含连接到服务器所需的用户名和密码(格式:username:password@hostname)。
port(端口号)
整数,可选,省略时使用方案的默认端口,各种传输协议都有默认的端口号,如http的默认端口为80。如果输入时省略,则使用默认端口号。有时候出于安全或其他考虑,可以在服务器上对端口进行重定义,即采用非标准端口号,此时,URL中就不能省略端口号这一项。
path(路径)
由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。
parameters(参数)
这是用于指定特殊参数的可选项,有服务器端程序自行解释。
query(查询)
可选,用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/ASP.NET等技术制作的网页)传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。
fragment(信息片断)
字符串,用于指定网络资源中的片段。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。
例如:http://www.example.com:8080/news/index.html?name=demo&page=1#name
请求头
常见请求头:
Accept:浏览器支持的MIME媒体类型, 比如text/html、application/json、image/webp等
Accept-Encoding:浏览器发给服务器,声明浏览器支持的编码类型,gzip、deflate。
Accept-Language:客户端接受的语言格式,比如 zh-CN。
Connection:keep-alive,开启HTTP持久连接。
Host:服务器的域名。
Origin:告诉服务器请求从哪里发起的,仅包括协议和域名 CORS跨域请求中可以看到response有对应的header,Access-Control-Allow-Origin。
Referer:告诉服务器请求的原始资源的URI,其用于所有类型的请求,并且包括:协议+域名+查询参数; 很多抢购服务会用这个做限制,必须通过某个入来进来才有效。
User-Agent:服务器通过这个请求头判断用户的软件的应用类型、操作系统、软件开发商以及版本号、浏览器内核信息等; 风控系统、反作弊系统、反爬虫系统等基本会采集这类信息做参考。
Cookie:表示服务端给客户端传的http请求状态,也是多个key=value形式组合,比如登录后的令牌等。
Content-Type:HTTP请求提交的内容类型,一般只有post提交时才需要设置,比如文件上传,表单提交等。
HTTP响应
响应数据格式
响应数据格式由状态行,响应头,空行,响应正文组成。

响应头
常见响应头
Allow:服务器支持哪些请求方法。
Content-Length:响应体的字节长度。
Content-Type:响应体的MIME类型。
Content-Encoding:设置数据使用的编码类型。
Date:设置消息发送的日期和时间。
Expires:设置响应体的过期时间,一个GMT时间,表示该缓存的有效时间。
cache-control:Expires的作用一致,都是指明当前资源的有效期, 控制浏览器是否直接从浏览器缓存取数据还是重新发请求到服务器取数据,优先级高于Expires,控制粒度更细,如max-age=240,即4分钟
Location:表示客户应当到哪里去获取资源,一般同时设置状态代码为3xx。
Server:服务器名称。
Transfer-Encoding:chunked 表示输出的内容长度不能确定,静态网页一般没,基本出现在动态网页里面。
Access-Control-Allow-Origin:定哪些站点可以参与跨站资源共享。
Content-type:用来指定不同格式的请求响应信息,俗称 MIME媒体类型
Content-type常见的取值:
text/html:HTML格式
text/plain:纯文本格式
text/xml:XML格式
image/gif:gif图片格式
image/jpeg:jpg图片格式
image/png:png图片格式
application/json:JSON数据格式
application/pdf:pdf格式
application/octet-stream:二进制流数据,一般是文件下载
application/x-www-form-urlencoded:form表单默认的提交数据的格式,会编码成key=value格式
multipart/form-data:表单中需要上传文件的文件格式类型
响应状态码
HTTP响应状态码用来表明特定 HTTP 请求是否成功完成。用数值来表示,响应被归为以下五大类:
信息响应(100–199)
100 Continue
这个临时响应表明,迄今为止的所有内容都是可行的,客户端应该继续请求,如果已经完成,则忽略它。
101 Switching Protocols
该代码是响应客户端的 Upgrade (en-US) 请求头发送的,指明服务器即将切换的协议。
102 Processing (en-US) (WebDAV)
此代码表示服务器已收到并正在处理该请求,但当前没有响应可用。
103 Early Hints
此状态代码主要用于与 Link 链接头一起使用,以允许用户代理在服务器准备响应阶段时开始预加载 preloading 资源。
成功响应 (200–299)
200 OK
请求成功。成功的含义取决于 HTTP 方法:
GET: 资源已被提取并在消息正文中传输。
HEAD: 实体标头位于消息正文中。
PUT or POST: 描述动作结果的资源在消息体中传输。
TRACE: 消息正文包含服务器收到的请求消息。
201 Created
该请求已成功,并因此创建了一个新的资源。这通常是在 POST 请求,或是某些 PUT 请求之后返回的响应。
202 Accepted
请求已经接收到,但还未响应,没有结果。意味着不会有一个异步的响应去表明当前请求的结果,预期另外的进程和服务去处理请求,或者批处理。
203 Non-Authoritative Information
服务器已成功处理了请求,但返回的实体头部元信息不是在原始服务器上有效的确定集合,而是来自本地或者第三方的拷贝。当前的信息可能是原始版本的子集或者超集。例如,包含资源的元数据可能导致原始服务器知道元信息的超集。使用此状态码不是必须的,而且只有在响应不使用此状态码便会返回200 OK的情况下才是合适的。
204 No Content
对于该请求没有的内容可发送,但头部字段可能有用。用户代理可能会用此时请求头部信息来更新原来资源的头部缓存字段。
205 Reset Content
告诉用户代理重置发送此请求的文档。
206 Partial Content
当从客户端发送Range范围标头以只请求资源的一部分时,将使用此响应代码。
207 Multi-Status (en-US) (WebDAV)
对于多个状态代码都可能合适的情况,传输有关多个资源的信息。
208 Already Reported (en-US) (WebDAV)
在 DAV 里面使用 <dav:propstat> 响应元素以避免重复枚举多个绑定的内部成员到同一个集合。
226 IM Used (en-US) (HTTP Delta encoding)
服务器已经完成了对资源的GET请求,并且响应是对当前实例应用的一个或多个实例操作结果的表示。
重定向消息 (300–399)
300 Multiple Choice
请求拥有多个可能的响应。用户代理或者用户应当从中选择一个。(没有标准化的方法来选择其中一个响应,但是建议使用指向可能性的 HTML 链接,以便用户可以选择。)
301 Moved Permanently
请求资源的 URL 已永久更改。在响应中给出了新的 URL。
302 Found
此响应代码表示所请求资源的 URI 已 暂时 更改。未来可能会对 URI 进行进一步的改变。因此,客户机应该在将来的请求中使用这个相同的 URI。
303 See Other
服务器发送此响应,以指示客户端通过一个 GET 请求在另一个 URI 中获取所请求的资源。
304 Not Modified
这是用于缓存的目的。它告诉客户端响应还没有被修改,因此客户端可以继续使用相同的缓存版本的响应。
305 Use Proxy 已弃用
在 HTTP 规范中定义,以指示请求的响应必须被代理访问。由于对代理的带内配置的安全考虑,它已被弃用。
306 unused
此响应代码不再使用;它只是保留。它曾在 HTTP/1.1 规范的早期版本中使用过。
307 Temporary Redirect
服务器发送此响应,以指示客户端使用在前一个请求中使用的相同方法在另一个 URI 上获取所请求的资源。这与 302 Found HTTP 响应代码具有相同的语义,但用户代理 不能 更改所使用的 HTTP 方法:如果在第一个请求中使用了 POST,则在第二个请求中必须使用 POST
308 Permanent Redirect
这意味着资源现在永久位于由Location: HTTP Response 标头指定的另一个 URI。这与 301 Moved Permanently HTTP 响应代码具有相同的语义,但用户代理不能更改所使用的 HTTP 方法:如果在第一个请求中使用 POST,则必须在第二个请求中使用 POST。
客户端错误响应 (400–499)
400 Bad Request
由于被认为是客户端错误(例如,错误的请求语法、无效的请求消息帧或欺骗性的请求路由),服务器无法或不会处理请求。
401 Unauthorized
虽然 HTTP 标准指定了"unauthorized",但从语义上来说,这个响应意味着"unauthenticated"。也就是说,客户端必须对自身进行身份验证才能获得请求的响应。
402 Payment Required 实验性
此响应代码保留供将来使用。创建此代码的最初目的是将其用于数字支付系统,但是此状态代码很少使用,并且不存在标准约定。
403 Forbidden
客户端没有访问内容的权限;也就是说,它是未经授权的,因此服务器拒绝提供请求的资源。与 401 Unauthorized 不同,服务器知道客户端的身份。
404 Not Found
服务器找不到请求的资源。在浏览器中,这意味着无法识别 URL。在 API 中,这也可能意味着端点有效,但资源本身不存在。服务器也可以发送此响应,而不是 403 Forbidden,以向未经授权的客户端隐藏资源的存在。这个响应代码可能是最广为人知的,因为它经常出现在网络上。
405 Method Not Allowed
服务器知道请求方法,但目标资源不支持该方法。例如,API 可能不允许调用DELETE来删除资源。
406 Not Acceptable
当 web 服务器在执行服务端驱动型内容协商机制后,没有发现任何符合用户代理给定标准的内容时,就会发送此响应。
407 Proxy Authentication Required
类似于 401 Unauthorized 但是认证需要由代理完成。
408 Request Timeout
此响应由一些服务器在空闲连接上发送,即使客户端之前没有任何请求。这意味着服务器想关闭这个未使用的连接。由于一些浏览器,如 Chrome、Firefox 27+ 或 IE9,使用 HTTP 预连接机制来加速冲浪,所以这种响应被使用得更多。还要注意的是,有些服务器只是关闭了连接而没有发送此消息。
409 Conflict
当请求与服务器的当前状态冲突时,将发送此响应。
410 Gone
当请求的内容已从服务器中永久删除且没有转发地址时,将发送此响应。客户端需要删除缓存和指向资源的链接。HTTP 规范打算将此状态代码用于“有限时间的促销服务”。API 不应被迫指出已使用此状态代码删除的资源。
411 Length Required
服务端拒绝该请求因为 Content-Length 头部字段未定义但是服务端需要它。
412 Precondition Failed
客户端在其头文件中指出了服务器不满足的先决条件。
413 Payload Too Large
请求实体大于服务器定义的限制。服务器可能会关闭连接,或在标头字段后返回重试 Retry-After。
414 URI Too Long
客户端请求的 URI 比服务器愿意接收的长度长。
415 Unsupported Media Type
服务器不支持请求数据的媒体格式,因此服务器拒绝请求。
416 Range Not Satisfiable
无法满足请求中 Range 标头字段指定的范围。该范围可能超出了目标 URI 数据的大小。
417 Expectation Failed
此响应代码表示服务器无法满足 Expect 请求标头字段所指示的期望。
418 I'm a teapot
服务端拒绝用茶壶煮咖啡。笑话,典故来源茶壶冲泡咖啡
421 Misdirected Request (en-US)
请求被定向到无法生成响应的服务器。这可以由未配置为针对请求 URI 中包含的方案和权限组合生成响应的服务器发送。
422 Unprocessable Entity (WebDAV)
请求格式正确,但由于语义错误而无法遵循。
423 Locked (en-US) (WebDAV)
正在访问的资源已锁定。
424 Failed Dependency (en-US) (WebDAV)
由于前一个请求失败,请求失败。
425 Too Early 实验性
表示服务器不愿意冒险处理可能被重播的请求。
426 Upgrade Required
服务器拒绝使用当前协议执行请求,但在客户端升级到其他协议后可能愿意这样做。 服务端发送带有Upgrade (en-US) 字段的 426 响应 来表明它所需的协议(们)。
428 Precondition Required
源服务器要求请求是有条件的。此响应旨在防止'丢失更新'问题,即当第三方修改服务器上的状态时,客户端 GET 获取资源的状态,对其进行修改并将其 PUT 放回服务器,从而导致冲突。
429 Too Many Requests
用户在给定的时间内发送了太多请求("限制请求速率")
431 Request Header Fields Too Large
服务器不愿意处理请求,因为其头字段太大。在减小请求头字段的大小后,可以重新提交请求。
451 Unavailable For Legal Reasons
用户代理请求了无法合法提供的资源,例如政府审查的网页。
服务端错误响应 (500–399)
500 Internal Server Error
服务器遇到了不知道如何处理的情况。
501 Not Implemented
服务器不支持请求方法,因此无法处理。服务器需要支持的唯二方法(因此不能返回此代码)是 GET and HEAD.
502 Bad Gateway
此错误响应表明服务器作为网关需要得到一个处理这个请求的响应,但是得到一个错误的响应。
503 Service Unavailable
服务器没有准备好处理请求。常见原因是服务器因维护或重载而停机。请注意,与此响应一起,应发送解释问题的用户友好页面。这个响应应该用于临时条件和如果可能的话,HTTP 标头 Retry-After 字段应该包含恢复服务之前的估计时间。网站管理员还必须注意与此响应一起发送的与缓存相关的标头,因为这些临时条件响应通常不应被缓存。
504 Gateway Timeout
当服务器充当网关且无法及时获得响应时,会给出此错误响应。
505 HTTP Version Not Supported
服务器不支持请求中使用的 HTTP 版本。
506 Variant Also Negotiates
服务器存在内部配置错误:所选的变体资源被配置为参与透明内容协商本身,因此不是协商过程中的适当终点。
507 Insufficient Storage (WebDAV)
无法在资源上执行该方法,因为服务器无法存储成功完成请求所需的表示。
508 Loop Detected (WebDAV)
服务器在处理请求时检测到无限循环。
510 Not Extended
服务器需要对请求进行进一步扩展才能完成请求。
511 Network Authentication Required
指示客户端需要进行身份验证才能获得网络访问权限。
HTTP执行过程
浏览器进行DNS域名解析,得到对应的IP地址;
根据这个IP,找到对应的服务器建立连接(三次握手);
建立TCP连接后发起HTTP请求(一个完整的http请求报文);
服务器响应HTTP请求,浏览器得到html代码(服务器响应);
浏览器解析html代码,并请求html代码中的资源(如js、css、图片等);
浏览器对页面进行渲染呈现给用户;
服务器关闭TCP连接(四次挥手);