HTTP协议基础

介绍

HTTP是基于客户/服务器模式,且面向连接的。典型的HTTP事务处理有如下的过程:
1.客户与服务器建立连接; 2. 客户向服务器提出请求; 3. 服务器接受请求,并根据请求返回相应的文件作为应答; 4.客户与服务器关闭连接。
特点:

  1. 支持客户/服务器模式。
  2. 简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。
  3. 灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。
  4. 无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。后来可以通过Connection:Keep-Alive实现长链接。
  5. 无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。此时可以设置缓存。

一次完整的http请求的过程

  1. http://www.baidu.com 这个网址进行DNS域名解析,得到对应的IP地址
  2. 根据这个IP,找到对应的服务器,发起TCP的三次握手
  3. 建立TCP连接后发起HTTP请求
  4. 服务器响应HTTP请求,浏览器得到html代码
  5. 浏览器解析html代码,并请求html代码中的资源(如js、css图片等)(先得到html代码,才能去找这些资源)
  6. 浏览器对页面进行渲染呈现给用户

问题1: DNS如何进行域名解析的?

DNS域名解析采用的是递归查询的方式,过程是,先去找DNS缓存->缓存找不到就去找根域名服务器->根域名又会去找下一级,这样递归查找之后,找到了,给我们的web浏览器。

问题2: 为什么http协议要基于TCP来实现?

TCP是一个端到端的可靠的面相连接的协议,HTTP基于传输层TCP协议不用担心数据传输的各种问题(当发生错误时,会重传)。

问题3: 最后一步浏览器是如何对页面进行渲染的?

解析html文件构成 DOM树 ->
解析CSS文件构成渲染树 ->
边解析,边渲染 ->
JS 单线程运行,JS有可能修改DOM结构,意味着JS执行完成前,后续所有资源的下载是没有必要的,所以JS是单线程,会阻塞后续资源下载

HTTP URL

url包含着某个资源的详细信息,格式如下:
http://host[":"port][/path]?id=2&name=李达康#123

参数说明:

  • http,协议类型
  • host,域名,例如http://www.baidu.com
  • port,端口号,例如8000 - path,路径
  • ?,从?开始,#之前,是参数
  • #,从#开始,就是锚。锚不是url必须的部分。锚点的作用是,客户端打开页面时,滚到该锚点的位置。

HTTP 请求的结构有四部分组成

请求行

请求行:请求行是由请求方法字段(Method)、url字段(Request-URL)、http协议版本(HTTP-Version)字段3个部分组成。请求行定义了本次请求的方式,格式如下:GET/example.html HTTP/1.1(CRLF)

GET: 请求获取Request-URI所标识的资源
POST: 在Request-URI所标识的资源后增加新的数据
HEAD: 请求获取由Request-URI所标识的资源的响应消息报头
PUT: 请求服务器存储或修改一个资源,并用Request-URI作为其标识
DELETE: 请求服务器删除Request-URI所标识的资源
TRACE: 请求服务器回送收到的请求信息,主要用于测试或诊断
CONNECT: 保留将来使用
OPTIONS: 请求查询服务器的性能,或者查询与资源相关的选项和需求

请求头

请求头:也被称作消息报头,请求头是由一些键值对组成,每行一对,关键字和值用英文冒号“:”分隔。允许客户端向服务器发送一些附加信息或者客户端自身的信息,典型的请求头如下:

  • Accept
    • 作用:指定客户端能够接收的内容类型
    • 示例:Accept:text/html
  • Accept-Charset
    • 作用:浏览器可以接受的字符编码集
    • 示例:Accept-Charset:utf-8
  • Accept-Encoding
    • 作用:指定浏览器可以支持web服务器返回内容的压缩编码类型
    • 示例:Accept-Encoding:gzip
  • Accept-Language
    • 作用:浏览器可接受的语言
    • 示例:Accept-Language:en
  • Accept-Ranges
    • 作用:可以请求网页实体的一个或者多个子范围字段
    • 示例:Accept-Ranges:bytes
  • Authorization
    • 作用:HTTP授权的授权证书类型
  • Cache-Control
    • 作用:指定请求和响应遵循的缓存机制
    • 示例:Cache-Control:no-cache
  • Connection
    • 作用:表示是否需要持久连接,注意HTTP1.1默认进行持久连接
    • 示例:Connection:close
  • Cookie
    • 作用:HTTP请求发送时,会把保存在该请求域名下的所有cookie值一起发送给web服务器
    • 示例:Cookie:$Version=1;Skin=new
  • Content-Length
    • 作用:请求的内容长度
    • 示例:Content-Length:348
  • Content-Type
    • 作用:请求与实体对应的MIME信息
  • Host
    • 作用:请求的主机名,允许多个域名同处一个IP地址,即虚拟主机。

空行

空行:最后一个请求头之后是一个空行,发送回车符和换行符,通知服务器以下不再有请求头。 \

请求体

请求数据:请求数据不在GET方法中使用,而是在POST方法中使用。POST方法适用于需要客户填写表单的场合。与请求数据相关的最常使用的请求头是Content-Type和Content-Length。

HTTP 响应

HTTP响应状态行

从上面图中可以看出,状态行由三部分组成,HTTP协议的版本号(HTTP-Version)、状态码(Status-Code)、以及对状态码的文本描述。例如:HTTP/1.1 200 OK (CRLF)

响应状态码分为哪几类

  1. 1xx — 信息响应,这类型的状态码,代表请求已被接受,需要继续处理,这类响应式临时响应,只包含状态行和某些可选的响应头信息想,并以空行结束.这些状态码代表的响应都是信息性的,标示客户应该采取的其他行动。
  2. 2xx — 成功响应,请求已成功被服务器接收,理解,并接受,也就是一次成功的响应。
  3. 3xx — 重定向,后续的请求地址(重定向目标)在本次响应的Location域中指明,当且仅当后续的请求所使用的方法是GET或者HEAD时,用户浏览器才可以在没有用户介入的情况下自动提交所需要的后续请求。
  4. 4xx — 客户端错误,

http协议和https协议的区别

http协议的不足之处:

  • 通信使用明文,不加密,内容容易背窃听;
  • 不验证通信方的身份,因此有可能遇到伪装;
  • 无法证明报文的完整性,所以有可能已遭篡改;

https协议的不足支出:

  • 加密解密过程复杂,导致访问速度慢;
  • 加密需要认向证机构付费
  • 整个页面的请求都要使用HTTPS

https是http协议的安全版,就是在http下加入SSL层。由于https的安全基础是SSL,因此通过它传输的内容都是经过SSL加密的,即HTTP+加密+认证+完整性保护=HTTPS。

它的主要作用为:

建立一个信息安全通道,保证数据传输的安全;
确认网站的真实性。凡是使用了https的网站,都可以通过点击浏览器地址栏的锁头标志来查看网站认证之后的真实信息,也可以通过CA机构颁发的安全签章来查询。
HTTPS协议的原理

HTTPS采用了共享秘钥加密(对称)和公开密钥加密(非对称)两者并用的混合加密机制。如果秘钥能够实现安全交换,那么有可能会考虑仅使用公开密钥加密来通信。但是公开密钥加密和共享秘钥加密相比,处理速度会变慢。所以应充分利用两者各自的优势, 将多种方法组合起来用于通信。 在交换密钥阶段使用公开密钥加密方式,之后的建立通信交换报文阶段 则使用共享密钥加密方式。

HTTPS握手过程的简单描述:

浏览器将自己支持的一套加密规则发送给服务器——服务器获得浏览器公钥;
服务器从中选出一套加密算法与HASH算法,并将自己的身份信息以证书的形式发回给浏览器。证书里面包含了网站地址、加密公钥、以及证书的分发机构等基本信息。——浏览器获得服务器的公钥;
获得网站证书之后,浏览器要做以下的工作:
验证证书的合法性,即颁发证书的机构是否合法,证书中包含的网站地址是否与正在访问的地址一致等。如果证书受信任,则浏览器地址栏会显示一个小锁头,否则会给出证书不受信任等提示;
如果证书受信任,或者客户端接受了不受信任的证书,浏览器会生成一串随机数的密码,这就是接下来通信的秘钥,并用证书中提供的公钥加密。这一步就是,共享秘钥加密。
使用约定好的HASH计算握手信息,并使用生成的随机数对消息进行加密,最后将之前生成的所有信息发送给网站
简单整理一下这个步骤,浏览器验证 -> 随机密码 服务器的公钥加密 -> 通信的密钥 通信的密钥 -> 服务器
网站接收浏览器发来的数据之后要做以下的操作:
使用自己的私钥将信息解密取出密码,使用密码解密浏览器发来的握手消息,并验证HASH是否与浏览器发来的一致。
使用密码加密一段握手消息,发送给浏览器。
小结本步骤,服务器用自己的私钥解出随机密码 -> 用密码解密握手消息(共享密钥通信)-> 验证HASH与浏览器是否一致(验证浏览器)

http协议与TCP/IP协议的区别

TCP/IP是传输层协议,主要解决数据如何在网络中传输(“搬运”);而HTTP是应用层协议,主要解决如何包装数据(“装配”)。我们在传输数据时,可以只使用(传输层)TCP/IP协议,但是那样的话,如果没有应用层,便无法识别数据内容,如果想要使传输的数据有意义,则必须使用到应用层协议,应用层协议有很多,比如HTTP、FTP、TELNET等,也可以自己定义应用层协议。

web使用http协议做应用层协议,以封装http文本信息,然后使用TCP/IP做传输层协议,将其发到网络上。

响应码参考

  • 1xx
    • 100
      服务器已经接收到请求头,并且客户端应继续发送请求主体。或者如果请求已经完成,忽略这个响应。服务器必须在请求完成后,向客户端发送一个最终的请求。
    • 101
      服务器已经理解了客户端的请求,并通过升级消息头,通知客户端采用不同的协议来完成这个请求。在发送完这个响应最后的空行后,服务器将切换到在升级消息头中定义的那些协议。
    • 102
      服务器已经收到并正在处理请求,但无响应可用。这样可以防止客户端超时,并假设请求丢失。
  • 2xx
    • 200
      请求已经成功,请求希望的响应头或数据体将随之响应返回。实际的响应则取决于你请求的方法,就以GET和POST的请求为例,在GET的请求中,响应将包含与请求的资源相对应的实体。则在POST的请求中,响应将包含描述或操作结果的实体。
    • 201
      请求已经被实现,而且有一个新的资源已经依据请求的需要而创建,并且URI已经随Location头信息返回。
    • 202
      服务器已经接受请求,但是尚未处理,最终该请求也可能不会被执行,并且可能在处理发生时被禁止。
    • 203
      服务器是一个转换代理服务器,例如网络加速器,以200状态码为起源,但回应了原始响应的修改版本。
    • 204
      服务器处理了请求,没有返回内容。。一般适用场景,在wifi设备连接到需要进行Web认证的Wife接入点时,通过访问一个能在HTTP 204响应的网站,如果能正常接受204的响应,则代表无需Web认证,否则会弹出网页浏览器界面,显示出Web网页认证界面用于让用户进行登陆。
    • 205
      服务器成功处理了请求,但没有返回任何内容。与204的区别就是,此响应要求请求者重置文档视图。
    • 206
      服务器已经成功处理了部分GET请求。典型的应用就是像迅雷这类的HTTP下载工具响应实现端点续传或者将一个大文档分解为多个下载段同时下载。
    • 207
      代表之后的消息体将是一个XML消息,并且可能依照之前子请求数量的不同,包含一系列独立的响应代码。
    • 208
      DAV绑定的成员已经在(多状态)响应之前的部分被列举,且未被再次包含。
    • 226
      服务器已经满足了对资源的请求,对实体请求的一个或多个实体操作的结果表示。
  • 3xx
    • 300
      被请求的资源有一系列可供选择的回馈信息,每个都有自己特定的地址和浏览器驱动的商议信息。用户或浏览器能够自行选择一个首选的地址进行重定向。除非这是一个HEAD请求,否则该响应应当包括一个资源特性及地址的列表的实体,以便用户或浏览器从中选择最合适的重定向地址。这个实体的格式由Content-Type定义的格式所决定。浏览器可能根据响应的格式以及浏览器自身能力,自动作出最合适的选择。

      Content-Type 标头告诉客户端实际返回的内容的内容类型。一般在http的请求头进行设置。一般有以下的几种格式:
      text/html: HTML 格式
      text/plain: 纯文本格式
      text/xml: XML 格式
      image/gif: gif图片格式
      image/jpeg: jpg图片格式
      image/png: png图片格式

    • 301
      被请求的资源已永久移动到新位置,并且将来任何对此资源的引用都应该使用本响应返回的若干个URI之一。如果可能,拥有链接编辑功能的客户端应当自动把请求的地址修改为从服务器反馈回来的地址。除非额外指定,否则这个响应也是可缓存的。

    • 302
      要求客户端执行临时重定向,由于这样的重定向是临时的,客户端应当继续向原有地址发送以后的请求,只有在Cache-Control或Expires中进行了指定的情况下,这个响应才是可缓存的。Cache-Control是http响应头用来放置缓存信息的。

    • 303
      对应当前请求的响应可以在另一个URI上被找到,当响应于POST(或PUT / DELETE)接收到响应时,客户端应该假定服务器已经收到数据,并且应该使用单独的GET消息发出重定向。这个方法的存在主要是为了允许由脚本激活的POST请求输出重定向到一个新的资源。这个新的URI不是原始资源的替代引用。同时,303响应禁止被缓存。当然,第二个请求(重定向)可能被缓存。

    • 304
      表示资源在由请求头中的if-Modified-Since 或 if-None-Match 参数指定的这一版本之后,未曾被修改。由于客户端仍然具有以前下载的副本,因此不需要重新传输资源。

    • 305
      被请求的资源必须通过指定的代理才能被访问。Location域中将给出指定的代理所在的URI信息,接收者需要重复发送一个单独的请求,通过这个代理才能访问相应资源。只有原始服务器才能创建305响应。

    • 306
      在最新版的规范中,306状态码已经不再被使用。最初是指“后续请求应使用指定的代理”。

    • 307
      在这种情况下,请求应该与另一个URI重复,但后续的请求应仍使用原始的URI,与302相反,当重新发出原始请求时,不允许更改请求方法。 例如,应该使用另一个POST请求来重复POST请求。

    • 308
      请求和所有将来的请求应该使用另一个URI重复。 307和308重复302和301的行为,但不允许HTTP方法更改。 例如,将表单提交给永久重定向的资源可能会顺利进行。

  • 4xx
    • 400
      由于明显的客户端错误(例如,格式错误的请求语法,太大的大小,无效的请求消息或欺骗性路由请求),服务器不能或不会处理该请求。

    • 401
      类似于403 Forbidden,401语义即"未认证",即用户没有必要的凭据。该状态码表示当前需求需要用户验证。

    • 402
      该状态码是为了将来可能的需求而预留的。该状态码最初的意图可能被用作某种形式的数字现金或在线支付方案的一部分,但几乎没有哪家服务商使用,而且这个状态码通常不被使用。

    • 403
      服务器已经理解请求,但是拒绝执行它。与401响应不同的是,身份验证并不能提供任何帮助,而且这个请求也不应该被重复提交。如果这不是一个HEAD请求,而且服务器希望能够讲清楚为何请求不能被执行,那么就应该在实体内描述拒绝的原因。当然服务器也可以返回一个404响应,假如它不希望让客户端获得任何信息。

    • 404
      请求失败,请求所希望得到的资源未被在服务器上发现,但允许用户的后续请求。没有信息能够告诉用户这个状况到底是暂时的还是永久的。假如服务器知道情况的话,应当使用404状态码来告知旧资源因为某些内部的配置机制问题已经永久的不可用,而且没有任何可以跳转的地址。404这个状态码被广泛应用于当服务器不想揭示到底为何请求被拒绝或者没有其他适合的响应可用的情况。

    • 405
      请求行中指定的请求方法不能被用于请求相应的资源。该响应必须返回一个Allow头信息用以表示出当前资源能够接受的请求方法的列表。例如,需要通过POST呈现数据的表单上的GET请求,或只读资源上的PUT请求。鉴于PUT,DELETE方法会对服务器上的资源进行写操作,因而绝大部分的网页服务器都不支持或者在默认的配置下不允许上述的请求方法,对于此类请求均会返回405错误。

    • 406
      请求的资源的内容特性无法满足请求头中的条件,因而无法生成响应实体,该请求不可接受。除非这是一个HEAD请求,否则该响应就应当返回一个包含可以让用户或者浏览器从中选择最合适的实体特性以及地址栏表的实体。实体的格式由Content-Type头中定义的媒体类型决定。浏览器可以根据格式及自身能力自行作出最佳选择。但是,规范中并没有定义任何作出此类自动选择的标准。

    • 407
      与401的响应类似,不同的是客户端必须在代理服务器上进行身份验证。代理服务器必须返回一个Proxy-Authenticate用以进行身份询问。客户端可以返回一个Proxy-Authorization信息头用以验证。

    • 408
      请求超时。根据HTTP规范,客户端没有在服务器预备等待的时间内完成一个请求的发送,客户端可以随时再次提交这一请求而无需进行任何更改。

    • 409
      表示因为请求存在冲突无法处理该请求,例如多个同步更新之间的编辑冲突。

    • 410
      表示所请求的资源不再可用,将不再可用。当资源被有意地删除并且资源应被清除时,应该使用这个。在收到410状态码后,用户应停止再次请求资源。但大多数服务端不会使用此状态码,而是直接使用404状态码。

    • 411
      服务器拒绝在没有定义Content-Length头的情况下接受请求。在添加了表明请求消息体长度的有效Content-Length头之后,客户端可以再次提交该请求。

    • 412
      服务器在验证在请求的头字段中给出先决条件时,没能满足其中的一个或多个。这个状态码允许客户端在获取资源时在请求的元信息(请求头字段数据)中设置先决条件,以此避免该请求方法被应用到其希望的内容以外的资源上。

    • 413
      表示服务器拒绝处理当前请求,因为该请求提交的实体数据大小超过了服务器愿意或者能够处理的范围。此种情况下,服务器可以关闭连接以免客户端继续发送此请求。如果这个状况是临时的,服务器应当返回一个Retry-After的响应头,以告知客户端可以在多少时间以后重新尝试。

    • 414
      表示请求的URI长度超过了服务器能够解释的长度,因此服务器拒绝对该请求提供服务。通常将太多数据的结果编码为GET请求的查询字符串,在这种情况下,应将其转换为POST请求。
      通常的情况包括:
      本应使用POST方法的表单提交变成了GET方法,导致查询字符串过长;
      重定向URI“黑洞”,例如每次重定向把旧的URI作为新的URI的一部分,导致在若干次重定向后URI超长。

      客户端正在尝试利用某些服务器中存在的安全漏洞攻击服务器,这类服务器使用固定长度的缓冲读取或操作请求的URI,当GET后的参数超过某个数值后,可能会产生缓冲区溢出,导致任意代码被执行,没有此类漏洞的服务器,应当返回414状态码。

    • 415
      对于当前请求的方法和所请求的资源,请求中提交的互联网媒体类型并不是服务器中所支持的格式,因此请求被拒绝。例如。客户端将图像的格式上传为svg,但服务器要求图像使用上传格式为jpg。

    • 416
      客户端已经要求文件的一部分,但服务器不能提供该部分。例如,如果客户端要求文件的一部分超出文件尾端。

    • 417
      在请求头Expect中指定的预期内容无法被服务器满足,或者这个服务器是一个代理服显的证据证明在当前路由的下一个节点上,Expect的内容无法被满足。

    • 421
      该请求针对的是无法产生响应的服务器(例如因为连接重用)。

    • 422
      请求格式正确,但是由于含有语义错误,无法响应。

    • 423
      当前的资源被锁定。

    • 424
      由于之前的某个请求发生错误,导致当前的请求失败。

    • 425
      服务器拒绝处理在Early Data中的请求,以规避可能的重放攻击。
      重放攻击是一种网络攻击,通过恶意的欺诈性地重复或拖延正常的数据传输而实施。因工作原理如同重放歌曲一样而得名。

    • 426
      原服务器要求该请求满足一定条件。这是为了防止“未更新”问题,即客户端读取(GET)一个资源的状态,更改它,并将它写(PUT)回服务器,但这期间第三方已经在服务器上更改了该资源的状态,因此导致了冲突。

    • 429
      用户在给定的时间内发送了太多的请求。旨在用于网络限速。

    • 431
      服务器不愿处理请求,因为一个或多个头字段过大。

    • 451
      该访问因法律的要求而被拒绝。

  • 5xx
    • 500
      通用错误消息,服务器遇到了一个未曾预料的状况,导致了它无法完成对请求的处理。没有给出具体错误信息。
    • 501
      服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法,并且无法支持其对任何资源的请求。
    • 502
      作为网关或者代理工作服务器尝试执行请求时,从上游服务器收到无效的响应。
    • 503
      由于临时的服务器维护或者过载,服务器无法处理请求。这个状况时暂时的,且在一段时间后就会恢复。
    • 504
      作为网关或者代理工作的服务器尝试执行请求时,未能及时从上游服务器(URI标识出的服务器,例如HTTP,FTP,LDAP)或者辅助服务器(例如DNS)收到的响应。
    • 505
      服务器不支持,或者拒绝支持在请求中使用的HTTP版本。这暗示着服务器不能或不愿使用与客户端相同的版本。响应中应当包含一个描述了为何版本不被支持以及服务器支持哪些协议的实体。
    • 506
      代表服务器存在内部配置错误,被请求的协商变元资源被配置为在透明内容协商中使用自己,因此在一个协商处理中不是一个合适的重点。
    • 507
      服务器无法存储完成请求所必须的内容。这个状况被认为是临时的。
    • 508
      服务器在处理请求时陷入死循环。
    • 511
      客户端需要进行身份验证才能获得网络访问权限,旨在限制用户群访问特定网络。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值