剖析 HTTP 协议

HTTP 概述

HTTP 是什么?

HTTP(HyperText Transfer Protocol,超文本传输协议)是WWW (World Wide Web)实现数据通信的基石。

HTTP是由IETF(Internet Engineering Task Force,互联网工程工作小组) 和W3C(World Wide Web Consortium,万维网协会) 共同合作制订的,它们发布了一系列的RFC(Request For Comments),其中最著名的是RFC 2616,它定义了HTTP /1.1

它是一种应用层协议(OSI七层模型的最顶层),它基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。

实例

如果你学习过计算机网络,熟悉OSI模型,那么你可以跳过这个实例了。

而不了解OSI模型的朋友,不妨通过一个实例来对HTTP报文有一个感性的认识。

以下是使用 wireshark 抓取的一个实际访问百度首页的 HTTP GET 报文
在这里插入图片描述

可以清楚的看到它的层级结构如下图,经过了层层的包装。

在这里插入图片描述

工作原理

HTTP 工作于Client/Server(客户端/服务器)模型上。

客户端和服务器之间的通信采用request/response(请求/响应)机制。

客户端是终端(可以是浏览器、爬虫程序等),服务器是网站的Web服务器。

一次HTTP 操作称为一个事务,其工作过程大致可分为四步:

(1)建立连接:首先,客户端和服务器需要建立一个到服务器指定端口(默认端口号为80)的TCP连接。

注:虽然HTTP 采用TCP连接是最流行的方式,但是RFC并没有指定一定要采用这种网络传输方式。

(2)发送请求信息:客户端向服务器发送请求。请求方式的格式为,统一资源标识符、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。

(3)发送响应信息:服务器监听指定接口是否收到请求,一旦发现请求,处理后,返回响应结果给客户端。其格式为一个状态行包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。

(4)关闭连接:客户端根据响应,显示结果给用户,最后关闭连接。

特点

  • 无连接的:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。

  • 无状态的:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。

  • 媒体独立的:这意味着,只要客户端和服务器知道如何处理的数据内容,任何类型的数据都可以通过HTTP发送。客户端以及服务器指定使用适合的MIME-type内容类型。

  • C/S模型的:基于Client/Server模型工作。

HTTP 消息结构

HTTP是基于客户端/服务端(C/S)的架构模型,通过一个可靠的链接来交换信息,是一个无状态的请求/响应协议。

一个HTTP"客户端"是一个应用程序(Web浏览器或其他任何客户端),通过连接到服务器达到向服务器发送一个或多个HTTP的请求的目的。

一个HTTP"服务器"同样也是一个应用程序(通常是一个Web服务,如Apache Web服务器或IIS服务器等),通过接收客户端的请求并向客户端发送HTTP响应数据。

HTTP使用统一资源标识符(Uniform Resource Identifiers, URI)来传输数据和建立连接。

一旦建立连接后,数据消息就通过类似Internet邮件所使用的格式[RFC5322]和多用途Internet邮件扩展(**MIME)[RFC2045]**来传送。

在这里插入图片描述

客户端请求消息

客户端发送一个HTTP请求到服务器的请求消息包括以下格式:请求行(request line)请求头部(header)空行请求数据四个部分组成,下图给出了请求报文的一般格式。

在这里插入图片描述

服务器响应消息

HTTP响应也由四个部分组成,分别是:状态行消息报头空行响应正文

在这里插入图片描述

HTTP 请求

根据HTTP标准,HTTP请求可以使用多种请求方法。

HTTP1.0定义了三种请求方法: GET, POSTHEAD方法。

HTTP1.1新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT方法。

在这里插入图片描述

  • HTTP 请求消息头

在这里插入图片描述

HTTP 响应

HTTP 响应消息头
在这里插入图片描述

在这里插入图片描述

HTTP 状态码

当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含HTTP状态码的信息头(server header)用以响应浏览器的请求。

HTTP状态码的英文为HTTP Status Code。

下面是常见的HTTP状态码:

  • 200 - 请求成功
  • 301 - 资源(网页等)被永久转移到其它URL
  • 404 - 请求的资源(网页等)不存在
  • 500 - 内部服务器错误

HTTP状态码分类

HTTP状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP状态码共分为5种类型:
在这里插入图片描述

  • HTTP 状态列表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

转自:静默虚空
注:作者博客很好看哈哈

参考

http://blog.youkuaiyun.com/gueter/article/details/1524447

http://www.runoob.com/http/http-intro.html

https://en.wikipedia.org/wiki/Hypertext_Transfer_Protocol

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值