你知道当我们在网页浏览器的地址栏输入URL的时候,Web页面是如何呈现的吗?
Web浏览器根据地址栏中指定的URL,从Web服务器获取文件资源等信息,然后解析这些信息,从而将Web页面呈现出来。
这其中Web使用一种名为HTTP(超文本传输协议)的协议作为规范,完成从客户端到服务器段等一系列运作流程。
什么是HTTP?
HTTP是一个客户端和服务器请求和应答的标准。通常使用的网络(包括互联网)是在TCP/IP协议族的基础上运作的,而HTTP属于它内部的一个子集。接下来就来了解一下TCP/IP。
TCP/IP协议族
计算机与网络设备要互相通信,双方就必须基于相同的方法,比如:如何探测到通信目标、由哪里发出的通信、使用哪种语言进行解析、怎么样结束通信等这些都需要一种规则来制约,我们把这种规则称为协议。我们把与互联网相关的协议集合起来总称为TCP/IP。(注:也有说法认为,TCP/IP是指TCP和IP两种协议;还有一种说话认为,TCP/IP是在IP协议的通信过程中,使用到的协议族的统称。)。
TCP/IP协议族按层次分为以下4层:应用层、传输层、网络层、数据链路层。
应用层:
应用层决定了向用户提供应用服务时通信的活动。TCP/IP协议族内预存了各类通用的应用服务,比如:FTP(文件传输协议)、DNS(域名系统)等。
传输层:
传输层对上层应用层,提供处于网络连接中的两台计算机之间的数据传输。在传输层中有两个性质不同的协议:TCP(传输控制协议)和UDP(用户数据报协议)。
网络层(又名网络互连层):
网络层用来处理在网络上流动的数据包。数据包是网络传输的最小单位。该层规定了通过怎样的路径到达对方计算机,并把数据包传送给对方,当对方计算机之间通过多台计算机或网络设备进行传输是,网络层所起的作用是在众多线路中选择一条传输路线。
链路层(又名数据链路层,网络接口层)
链路层是用来处理连接网络的硬件部分。包括控制操作系统、硬件的设备驱动、NIC(网络适配器,即网卡)、光纤等物理可见部分以及连接器等一切传输媒介。硬件上的范畴均在链路层范围之内。
TCP/IP通信传输流
利用TCP/IP协议族进行网络通信时,会通过分层顺序与对方进行通信。发送端从应用层到链路层,接收端从链路层到应用层。接下来我们用HTTP举例来说明:
首先发送端的客户端在应用层(HTTP协议)发出一个HTTP请求(我想看XXX页面)。然后在传输层(TCP协议)把从应用层处收到的数据(HTTP请求报文)进行分割,并在各个报文上打上标记序号及端口号后转发给网络层。接着在网络层(IP协议),增加作为通信目的地的MAC地址后转发给链路层。
接收端的服务器在链路层收到数据,从链路层--网络层--传输层--应用层往上发送数据,当数据传输到应用层才能算真正接收到由客户端发来的HTTP请求。详细过程如下图所示:
发送端在层与层之间传输数据时,每经过一层时必定会被打上一个该层所属的首部信息。反之,接收端在层与层传输数据时,每经过一层时会把对应的首部消去。
与HTTP关系密切的协议:IP、TCP和DNS
负责传输的IP协议
按层次分,IP(Internet Protocol)网际协议位于网络层。TCP/IP协议族中的IP指的就是网际协议,协议名称中占据了一半,其重要性可见一斑,几乎所有使用网络的系统都会用到IP协议(注意:不要把“IP”和“IP地址”搞混,“IP”是一种协议的名称,“IP地址”是指互联网协议地址。)。
IP协议的作用是把各种数据包传送给对方,而要确保数据传送到对方那里,则需要满足各类条件。其中两个重要条件就是IP地址和MAC地址。
IP地址指明了节点被分配到的地址,MAC地址是指网卡所属的固定地址。IP地址可以和MAC地址进行配对。
IP间的通信依赖MAC地址。通信的双方在同一局域网(LAN)内的情况是很少的,通常是经过多台设备中转才能连接到对方,而在进行中转是,会利用下一站中转设备的MAC地址来搜索下一个中转目标,直到到达目的地。这时会采用ARP协议,ARP协议是一种用以解析地址的协议,根据通信方的IP地址就可以反查出对应的MAC地址。
在到达通信目标前的中转过程中,计算机和路由器等网络设备只能获悉很粗略的传输路线,这种机制称为路由选择。路由选择
是指选择通过互连网络从源节点向目的节点传输信息的通道,而信息至少通过一个中间节点。路由选择位于网络层。我自己的理解是,就想快递公司送货的过程,寄快递的人只需要填写自己的地址和目的地的地址,然后将快递交给快递公司,任务就算完成了,中间的具体送货过程是不知道的(理解有错,欢迎指出)。
确保可靠性的TCP协议
按层次分,TCP位于传输层,提供可靠的字节流服务。
所谓的字节流服务是指,为了方便传输,将大块数据分割成以报文段为单位的数据包进行管理。而可靠的传输服务是指,能够把数据准确可靠的传给对方。
为了准确无误的将数据送达目标处,TCP协议采用了三次握手策略。握手过程中使用了TCP的标志(flag)——SYN和ACK。
第一次握手:发送端首先会发送一个带SYN标志的数据包给对方。
第二次握手:接收端收到数据包后,回传一个带有SYN/ACK标志的数据包以示传达确认信息。
第三次握手:发送端收到确认信息后,再回传一个带ACK标志的数据包,代表握手结束。
若在握手过程中某个阶段莫名中断,TCP协议会再次以相同的顺序发送相同的数据包。
除了上述的三次握手策略,TCP协议还有四次挥手策略以及11种状态来保证通信的可靠性。
负责域名解析的DNS服务
DNS服务是和HTTP协议一样位于应用层的协议。它提供域名到IP地址之间的解析服务。
DNS协议提供通过域名查找IP地址,或逆向从IP地址反查域名的服务。
各种协议与HTTP协议的关系
HTTP协议的职责:生成针对目标Web服务器的HTTP请求报文。对Web服务器请求的内容的处理。
TCP协议的职责:为了方便通信,将HTTP请求报文分割成报文段。按序号分为多个报文段加上端口号,把每个报文段可靠的传给对方。按序号重组请求报文。
IP协议的职责:搜索对方的地址,一边中转一边传送。
DNS协议:通过域名查找IP地址,或逆向从IP地址反查域名。
URI和URL
URI(Uniform Resource Identifier)统一资源标识符:
Uniform:规定统一的格式可方便处理多种不同类型的资源。
Resource:资源的定义是“可标识的任何东西”,能够区别与其他类型的,全都可作为资源。资源不仅可以是单一的,也可以是多数的集合体。
Identifier:标识可标识的对象。
综上所述,URI就是由某个协议方案表示的资源的定位标识符。协议方案是指访问资源所使用的协议类型名称。
URI用字符串标识某一互联网资源,而URL表示资源的地点(互联网上所处的位置)。URL是URI的子集。
URI格式:表示指定的URI,要使用涵盖全部必要信息的绝对URI、绝对URL以及相对URL。相对URL,是指从浏览器中基本URI处指定的URL,形如:/image/logo.gif。
登录信息(认证):指定用户名和密码作为从服务器端获取资源时必要的登录信息(身份认证)。此项是可选项。
服务器地址:使用绝对URI必须指定待访问的服务器地址。地址可以是DNS可以解析的名称、IPv4地址名或者是IPv6地址名。
服务器端口号:指定服务器连接的网络端口号。此项是可选项,若用户省略则自动使用默认端口号。
带层次的文件路径:指定服务器上的文件路径来定位特指的资源。
查询字符串:针对已指定的文件路径内的资源,可以使用查询字符串传入任意参数。此项可选。
片段标识符:使用片段标识符通常可标记出已获取资源中的子资源(文档内的某个位置)。在RFC中并没有明确规定其使用方法。该项也为可选项。