一次完整的HTTP请求发生了什么？

最新推荐文章于 2025-10-21 10:39:54 发布

转载最新推荐文章于 2025-10-21 10:39:54 发布 · 7.8k 阅读

HTTP 专栏收录该内容

1 篇文章

订阅专栏

本文详细解析了从在浏览器输入URL到页面加载完成的整个HTTP过程，包括域名解析、TCP三次握手、HTTP请求与响应、资源加载及页面渲染。同时介绍了HTTP协议的基础知识，如请求报文格式、状态码含义及缓存机制。

当我们在浏览器的地址栏输入 www.baidu.com，然后回车，回车这一瞬间到看到页面这一过程到底发生了什么呢？我们看一下下图：

关于HTTP协议可以参考以下：
HTTP协议漫谈 http://kb.cnblogs.com/page/140611/
HTTP协议概览 http://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html
了解HTTP Headers的方方面面 http://kb.cnblogs.com/page/55442/

1. 域名解析

首先浏览器会解析域名（准确的叫法应该是主机名）得到对应的IP地址，那怎么解析到对应的IP地址？
① 浏览器会首先搜索浏览器自身的DNS缓存（缓存时间比较短，大概只有1分钟，且只能容纳1000条缓存），看自身的缓存中是否有该域名对应的条目，而且没有过期，如果有且没有过期则解析到此结束；
② 如果浏览器自身的缓存里面没有找到对应的条目，那么浏览器会搜索操作系统自身的DNS缓存,如果找到且没有过期则停止搜索解析到此结束；
③ 如果在Windows系统的DNS缓存也没有找到，那么尝试读取hosts文件（位于C:\Windows\System32\drivers\etc），看看这里面有没有该域名对应的IP地址，如果有则解析成功；
④ 如果在hosts文件中也没有找到对应的条目，浏览器就会发起一个DNS的系统调用，就会向本地配置的首选DNS服务器（一般是电信运营商提供的，也可以使用像Google提供的DNS服务器）发起域名解析请求（通过的是UDP协议向DNS的53端口发起请求，这个请求是递归的请求，也就是运营商的DNS服务器必须得提供给我们该域名的IP地址），运营商的DNS服务器首先查找自身的缓存，找到对应的条目，且没有过期，则解析成功。如果没有找到对应的条目，则有运营商的DNS代我们的浏览器发起迭代DNS解析请求，它首先是会找根域的DNS的IP地址（这个DNS服务器都内置13台根域的DNS的IP地址），然后进一步请求；
正常情况下通过这四步基本就能解析域名获得IP了；

2. 发起TCP3次握手

拿到域名对应的IP地址之后，User-Agent（一般是指浏览器）会以一个随机端口（1024 < 端口 < 65535）向服务器的WEB程序的80端口发起TCP的连接请求。这个连接请求（原始的http请求经过TCP/IP4层模型的层层封包）到达服务器端后（这中间通过各种路由设备，局域网内除外），进入到网卡，然后是进入到内核的TCP/IP协议栈（用于识别该连接请求，解封包，一层一层的剥开），还有可能要经过Netfilter防火墙（属于内核的模块）的过滤，最终到达WEB程序，最终建立了TCP/IP的连接。

为什么HTTP协议要基于TCP来实现？

目前在Internet中所有的传输都是通过TCP/IP进行的，HTTP协议作为TCP/IP模型中应用层的协议也不例外，TCP是一个端到端的可靠的面向连接的协议，所以HTTP基于传输层TCP协议不用担心数据的传输的各种问题。

3. 建立TCP连接后发起HTTP请求

进过TCP3次握手之后，浏览器发起了http的请求

HTTP请求报文格式（HTTP请求报文由3部分组成（请求行+请求头+请求体））

请求行：

①是请求方法，GET和POST是最常见的HTTP方法，除此以外还包括DELETE、HEAD、OPTIONS、PUT、TRACE。
②为请求对应的URL地址，它和报文头的Host属性组成完整的请求URL。
③是协议名称及版本号。

请求头：

④是HTTP的报文头，报文头包含若干个属性，格式为“属性名:属性值”，服务端据此获取客户端的信息。
与缓存相关的规则信息，均包含在header中

请求体：

⑤是报文体，它将一个页面表单中的组件值通过param1=value1&param2=value2的键值对形式编码成一个格式化串，它承载多个请求参数的数据。不但报文体可以传递请求参数，请求URL也可以通过类似于“/chapter15/user.html?param1=value1&param2=value2”的方式传递请求参数。

什么是URL、URI、URN？

URI ：Uniform Resource Identifier 统一资源标识符
URL：Uniform Resource Locator 统一资源定位符
URN： Uniform Resource Name 统一资源名称
URL和URN 都属于 URI

4. 服务器端响应http请求，浏览器得到html代码

服务器端WEB程序接收到http请求以后，就开始处理该请求，处理之后就返回给浏览器html文件

一些常见状态码

1xx: 信息性状态码（100,101）
2xx: 成功状态码

200 OK

3xx: 重定向状态码

状态码描述
301 永久重定向, Location响应首部的值仍为当前URL，因此为隐藏重定向
302 临时重定向，显式重定向, Location响应首部的值为新的URL
304 Not Modified 未修改，比如本地缓存的资源文件和服务器上比较时，发现并没有修改，服务器返回一个304状态码，告诉浏览器，你不用请求该资源，直接使用本地的资源即可

4xx: 客户端错误状态码

404 Not Found 请求的URL资源并不存在

5xx: 服务器端错误状态码

状态码描述
500 Internal Server Error 服务器内部错误
502 Bad Gateway 前面代理服务器联系不到后端的服务器时出现
504 Gateway Timeout 这个是代理能联系到后端的服务器，但是后端的服务器在规定的时间内没有给代理服务器响应

状态码	描述
301	永久重定向, Location响应首部的值仍为当前URL，因此为隐藏重定向
302	临时重定向，显式重定向, Location响应首部的值为新的URL
304	Not Modified 未修改，比如本地缓存的资源文件和服务器上比较时，发现并没有修改，服务器返回一个304状态码，告诉浏览器，你不用请求该资源，直接使用本地的资源即可

状态码	描述
500	Internal Server Error 服务器内部错误
502	Bad Gateway 前面代理服务器联系不到后端的服务器时出现
504	Gateway Timeout 这个是代理能联系到后端的服务器，但是后端的服务器在规定的时间内没有给代理服务器响应

5. 浏览器解析html代码，并请求html代码中的资源

浏览器拿到html文件后，就开始解析其中的html代码，遇到js/css/image等静态资源时，就向服务器端去请求下载（会使用多线程下载，每个浏览器的线程数不一样），这个时候就用上keep-alive特性了，建立一次HTTP连接，可以请求多个资源，下载资源的顺序就是按照代码里的顺序，但是由于每个资源大小不一样，而浏览器又多线程请求请求资源，所以请求成功显示的顺序并不一定是代码里面的顺序。
浏览器在请求静态资源时（在未过期的情况下），向服务器端发起一个http请求（询问自从上一次修改时间到现在有没有对资源进行修改），如果服务器端返回304状态码（告诉浏览器服务器端没有修改），那么浏览器会直接读取本地的该资源的缓存文件。