http协议详解(超详细)转

http://blog.youkuaiyun.com/gueter/article/details/1524447

http协议学习系列       HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。      

1. 基础概念篇

1.1 介绍

  HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)合作的结果,(他们)最终发布了一系列的RFC,RFC 1945定义了HTTP/1.0版本。其中最著名的就是RFC 2616。RFC 2616定义了今天普遍使用的一个版本——HTTP 1.1。

HTTP协议(HyperText Transfer Protocol,超文本传输协议)是用于从WWW服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分,以及哪部分内容首先显示(如文本先于图形)等。

HTTP是一个应用层协议,由请求和响应构成,是一个标准的客户端服务器模型。HTTP是一个无状态的协议。

1.2 在TCP/IP协议栈中的位置

HTTP协议通常承载于TCP协议之上,有时也承载于TLS或SSL协议层之上,这个时候,就成了我们常说的HTTPS。如下图所示:
    

默认HTTP的端口号为80,HTTPS的端口号为443。

1.3 HTTP的请求响应模型

HTTP协议永远都是客户端发起请求,服务器回送响应。见下图:
   

这样就限制了使用HTTP协议,无法实现在客户端没有发起请求的时候,服务器将消息推送给客户端。

HTTP协议是一个无状态的协议,同一个客户端的这次请求和上次请求是没有对应关系。

1.4 工作流程

一次HTTP操作称为一个事务,其工作过程可分为四步:

1)首先客户机与服务器需要建立连接。只要单击某个超级链接,HTTP的工作开始。

2)建立连接后,客户机发送一个请求给服务器,请求方式的格式为:统一资源标识符(URL)、协议版本号,后边是MIME信息包括请求修饰符、客户机信息和可能的内容。

3)服务器接到请求后,给予相应的响应信息,其格式为一个状态行,包括信息的协议版本号、一个成功或错误的代码,后边是MIME信息包括服务器信息、实体信息和可能的内容。

4)客户端接收服务器所返回的信息通过浏览器显示在用户的显示屏上,然后客户机与服务器断开连接。

如果在以上过程中的某一步出现错误,那么产生错误的信息将返回到客户端,有显示屏输出。对于用户来说,这些过程是由HTTP自己完成的,用户只要用鼠标点击,等待信息显示就可以了。

1.5 使用Wireshark抓TCP、http包

打开Wireshark,选择工具栏上的“Capture”->“Options”,界面选择如图1所示:
                            

图1 设置Capture选项

一般读者只需要选择最上边的下拉框,选择合适的Device,而后点击“Capture Filter”,此处选择的是“HTTP TCP port(80)”,选择后点击上图的“Start”开始抓包。
                                  

图2 选择Capture Filter

例如在浏览器中打开http://image.baidu.com/,抓包如图3所示:
    

图3   抓包

在上图中,可清晰的看到客户端浏览器(ip为192.168.2.33)与服务器的交互过程:

1)No1:浏览器(192.168.2.33)向服务器(220.181.50.118)发出连接请求。此为TCP三次握手第一步,此时从图中可以看出,为SYN,seq:X (x=0)

2)No2:服务器(220.181.50.118)回应了浏览器(192.168.2.33)的请求,并要求确认,此时为:SYN,ACK,此时seq:y(y为0),ACK:x+1(为1)。此为三次握手的第二步;

3)No3:浏览器(192.168.2.33)回应了服务器(220.181.50.118)的确认,连接成功。为:ACK,此时seq:x+1(为1),ACK:y+1(为1)。此为三次握手的第三步;

4)No4:浏览器(192.168.2.33)发出一个页面HTTP请求;

5)No5:服务器(220.181.50.118)确认;

6)No6:服务器(220.181.50.118)发送数据;

7)No7:客户端浏览器(192.168.2.33)确认;

8)No14:客户端(192.168.2.33)发出一个图片HTTP请求;

9)No15:服务器(220.181.50.118)发送状态响应码200 OK

……

1.6 头域

每个头域由一个域名,冒号(:)和域值三部分组成。域名是大小写无关的,域值前可以添加任何数量的空格符,头域可以被扩展为多行,在每行开始处,使用至少一个空格或制表符。

在抓包的图中,No14点开可看到如图4所示:


图4 http请求消息

       回应的消息如图5所示:
               

图5 http状态响应信息

1.6.1 host头域

Host头域指定请求资源的Intenet主机和端口号,必须表示请求url的原始服务器或网关的位置。HTTP/1.1请求必须包含主机头域,否则系统会以400状态码返回。

图5中host那行为:

1.6.2 Referer头域

Referer头域允许客户端指定请求uri的源资源地址,这可以允许服务器生成回退链表,可用来登陆、优化cache等。他也允许废除的或错误的连接由于维护的目的被追踪。如果请求的uri没有自己的uri地址,Referer不能被发送。如果指定的是部分uri地址,则此地址应该是一个相对地址。

在图4中,Referer行的内容为:

1.6.3 User-Agent头域

User-Agent头域的内容包含发出请求的用户信息。

在图4中,User-Agent行的内容为:
   

1.6.4 Cache-Control头域

Cache-Control指定请求和响应遵循的缓存机制。在请求消息或响应消息中设置Cache-Control并不会修改另一个消息处理过程中的缓存处理过程。请求时的缓存指令包括no-cache、no-store、max-age、max-stale、min-fresh、only-if-cached,响应消息中的指令包括public、private、no-cache、no-store、no-transform、must-revalidate、proxy-revalidate、max-age。

在图5中的该头域为:


1.6.5 Date头域

Date头域表示消息发送的时间,时间的描述格式由rfc822定义。例如,Date:Mon,31Dec200104:25:57GMT。Date描述的时间表示世界标准时,换算成本地时间,需要知道用户所在的时区。

图5中,该头域如下图所示:

 

1.7 HTTP的几个重要概念

1.7.1连接:Connection

一个传输层的实际环流,它是建立在两个相互通讯的应用程序之间。

在http1.1,request和reponse头中都有可能出现一个connection的头,此header的含义是当client和server通信时对于长链接如何进行处理。

在http1.1中,client和server都是默认对方支持长链接的, 如果client使用http1.1协议,但又不希望使用长链接,则需要在header中指明connection的值为close;如果server方也不想支持长链接,则在response中也需要明确说明connection的值为close。不论request还是response的header中包含了值为close的connection,都表明当前正在使用的tcp链接在当天请求处理完毕后会被断掉。以后client再进行新的请求时就必须创建新的tcp链接了。

1.7.2消息:Message

HTTP通讯的基本单位,包括一个结构化的八元组序列并通过连接传输。

1.7.3请求:Request

一个从客户端到服务器的请求信息包括应用于资源的方法、资源的标识符和协议的版本号。

1.7.4响应:Response

一个从服务器返回的信息包括HTTP协议的版本号、请求的状态(例如“成功”或“没找到”)和文档的MIME类型。

1.7.5资源:Resource

由URI标识的网络数据对象或服务。

1.7.6实体:Entity

数据资源或来自服务资源的回映的一种特殊表示方法,它可能被包围在一个请求或响应信息中。一个实体包括实体头信息和实体的本身内容。

1.7.7客户机:Client

一个为发送请求目的而建立连接的应用程序。

1.7.8用户代理:UserAgent

初始化一个请求的客户机。它们是浏览器、编辑器或其它用户工具。

1.7.9服务器:Server

一个接受连接并对请求返回信息的应用程序。

1.7.10源服务器:Originserver

是一个给定资源可以在其上驻留或被创建的服务器。

1.7.11代理:Proxy

一个中间程序,它可以充当一个服务器,也可以充当一个客户机,为其它客户机建立请求。请求是通过可能的翻译在内部或经过传递到其它的服务器中。一个代理在发送请求信息之前,必须解释并且如果可能重写它。

代理经常作为通过防火墙的客户机端的门户,代理还可以作为一个帮助应用来通过协议处理没有被用户代理完成的请求。

1.7.12网关:Gateway

一个作为其它服务器中间媒介的服务器。与代理不同的是,网关接受请求就好象对被请求的资源来说它就是源服务器;发出请求的客户机并没有意识到它在同网关打交道。

网关经常作为通过防火墙的服务器端的门户,网关还可以作为一个协议翻译器以便存取那些存储在非HTTP系统中的资源。

1.7.13通道:Tunnel

是作为两个连接中继的中介程序。一旦激活,通道便被认为不属于HTTP通讯,尽管通道可能是被一个HTTP请求初始化的。当被中继的连接两端关闭时,通道便消失。当一个门户(Portal)必须存在或中介(Intermediary)不能解释中继的通讯时通道被经常使用。

1.7.14缓存:Cache

反应信息的局域存储。

超 文本传输协议HTTP)是一种为分布式,合作式,超媒体信息系统。它是一种通用的,无状态(stateless)的协议,除了应用于超文本传输外,它也 可以应用于诸如名称服务器和分布对象管理系统之类的系统,这可以通过扩展它的请求方法,错误代码和报头[47]来实现。HTTP的一个特点是数据表现形式 是可输入的和可协商性的,这就允许系统能被建立而独立于数据传输。 目录 1 引论 1.1 目的 1.2 要求 1.3 术语 1.4 总体操作 2 符号习惯和一般语法 2.1 扩充的BNF(扩充的 巴科斯-诺尔范式) 2.2基本规则 (basic rule) 3 协议参数 3.1 HTTP版本 3.2 统一资源标识符(URI) 3.2.1一般语法 3.2.2 http URL 3.2.3 URI 比较 3.3 日期/时间格式(Date/Time Formats) 3.3.1完整日期 (Full Date) 3.3.2 Delta Seconds 3.4 字符集 3.4.1丢失的字符集(Missing Charset) 3.5 内容编码(Content Codings) 3.6 传输编码 (Transfer Codings) 3.6.1块传输编码(Chunked Transfer Coding) 3.7 媒体类型(Media Type) 3.7.1规范化和文本缺省 (Canonicalization and Text Defaults) 3.7.2多部分类型(Multipart type) 3.8 产品标记 (product Tokens) 3.9 质量值(Quality Values) 3.10 语言标签 (Language Tags) 3.11 实体标签 (Entity Tags) 3.12 范围单位(Range Units) 4 HTTP消息 4.1 消息类型(Message Types) 4.2 消息头 (Message Headers) 4.3 消息主体 (Message Body) 4.4 消息的长度(Message Length) 4.5 常用头域(General Header Fields) 5 请求(Request) 5.1 请求行 (Request-Line) 5.1.1方法 (Method) 5.1.2请求URL(Request-URI) 5.2请求资源 (The Resource Identified by a Request) 5.3请求报头域 (Request Header Fields) 6 响应 (Response) 6.1 状态行 (Status-Line) 6.1.1状态码原因短语 (Status Code and Reason Phrase) 7 实体(Entity) 7.1 实体报文域(Entity Header Fields) 7.2 实体主体(Entity Body) 7.2.1类型(Type) 7.2.2实体主体长度(Entity Length) 8 连接 8.1 持续连接(Persistent Connection)。 8.1.1目的 8.1.2总体操作 8.1.2.1 协商(Negotiation) 8.1.2.2 流水线(pilelining) 8.1.3代理服务器 (Proxy Servers) 8.1.4实际的考虑 (Practical Considerations) 8.2 消息传送要求(Message Transmission Requirements) 8.2.1持续连接流量控制 (Persistent Connections and Flow Control) 8.2.2监视连接中出错状态的消息 8.2.3 100状态码的用途 8.2.4服务器过早关闭连接时客户端的行为 9 方法定义(Method Definitions) 9.1 安全和等幂(Idempotent)方法 9.1.1安全方法(Safe Methods) 9.1.2等幂方法(Idempotent Mehtods) 9.2 OPTIONS(选项) 9.3 GET 9.4 HEAD 9.5 POST 9.6 PUT 9.7 DELETE(删除) 9.8 TRACE 9.9 CONNECT(连接) 10.状态码定义 10.1 通知的 1xx 10.1.1 100 继续 (Continue) 10.1.2 101切换协议 (Switching Protocols) 10.2 成功 2xx 10.2.1 200 OK 10.2.2 201 已创建(Created) 10.2.3 202 接受(Accepted) 10.2.4 203 非权威信息(Non-Authoritative information) 10.2.5 204 无内容 (No Content) 10.2.6 205 重置内容(Reset Content) 10.2.7 206 部分内容(Partial Content) 10.3 重新定向 3xx. 10.3.1 300 多个选择.(Multiple Choices) 10.3.2 301 永久移动 (Moved Permanently) 10.3.3 302 发现(Found) 10.3.4 303 见其他(See Other) 10.3.5 304 没有被改变(Not Modified) 10.3.6 305 使用代理服务器 (User Proxy) 10.3.7 306没有使用的(unused) 10.3.8 307临时重发(Temporary Redirect) 10.4 客户错误 4xx 10.4.1 400 坏请求(Bad Request) 10.4.2 401 未授权的 (Unauthorized) 10.4.3 402 必需的支付 (Payment Required) 10.4.4 403 禁用 (Forbidden) 10.4.5 404 没有找到(Not Found) 10.4.6 405 不被允许的方法(Method Not Allowed) 10.4.7 406 不接受的 (Not Acceptable) 10.4.8 407 代理服务器授权所需(Proxy Authentication Required) 10.4.9 408 请求超时(Request Timeout) 10.4.10 409 冲突 (Confilict) 10.4.11 410 不存在(gone) 10.4.12 411 必需的长度 (Length Required) 10.4.13 412 先决条件失败 (Precondition Failed) 10.4.14 413 请求实体太大 10.4.15 414 请求URI太长(Request-URI Too Long) 10.4.16 415 不被支持的媒体类型(Unsupported Media Type) 10.4.17 416 请求范围不满足 (Requested Range Not Satisfiable) 10.4.18 417 期望失败 10.5 服务器错误 5xx (Server Error) 10.5.1 500 服务器内部错误 (Internal Server Error) 10.5.2 501 不能实现 (Not Implemented) 10.5.3 502 坏网关 (Bad Gateway) 10.5.4 503 难以获得的服务.(Service Unavailable) 10.5.5 504 网关超时(Gateway Timeout) 10.5.6 505 HTTP版本不支持 (HTTP version Not Supported) 11.入口验证(Access Authentication) 12.内容协商 (Content Negotiation) 12.1 服务器驱动协商(Server-driven Negotiation) 12.2 代理驱动协商 (Agent-driven Negotiation) 12.3 透明协商(Transparent Negotiation) 13 HTTP中的缓存 13.1.1缓存正确性(Cache Correctness) 13.1.2警告信息(Warnings) 13.1.3缓存控制机制 (Cache-control Mechanism) 13.1.4显示的用户代理警告(Explicit User Agent Warnings) 13.1.5规则和警告的例外情况 13.1.6由客户控制的行为(Client-controlled Behavior) 13.2 过期模型 (Expiration Model) 13.2.1 服务器指定模型(Server-Specified Expiratiion) 13.2.2 启发式过期 13.2.3 年龄(Age)计算 13.2.4 过期计算(Expiration Calculations) 13.2.5澄清过期值(Disambiguation Expiration Values) 13.2.6澄清多个响应(Disambiguating Multiple Response) 13.3 验证模型(Validation Model) 13.3.1最后修改日期 (Last-Modified Dates) 13.3.2 实体标签缓存验证器(Entity Tag Cache Validators) 13.3.3 强,弱验证器 (Weak and Strong Validators) 13.3.4 关于何时使用实体标签和最后修改时间的规则 13.3.5非验证条件(Non-validating Conditionls) 13.4 响应的可缓存性(Response Cacheability) 13.5 从缓存里构造响应 13.5.1End-to-end和Hop-by-hop头域 13.5.2不可更改的头域 (Non-modifiable Headers) 13.5.3联合头域(Combining Headers) 13.5.4联合字节范围(Combing Byte Ranges) 13.6 缓存已经协商过的响应(Caching Negotiated Responses) 13.7 共享和非共享缓存 (Shared and Non-Shared Caches) 13.8 错误和不完全的响应缓存行为 13.9 GET 和 HEAD 的副作用(Side Effects of GET and HEAD) 13.10 在更新或删除后的无效性 13.11 强制写通过( Write-Through Mandatory) 13.12 缓存替换 (Cache Replacement) 13.13 历史列表 (History Lists) 14 头域定义 14.1 Accept 14.2 Accept-Charset 14.3 Accept-Encoding 14.4 Accept-Language 14.5 Accept-Range 14.6 Age 14.7 Allow 14.8 Authorization (授权) 14.9 Cache-Control 14.9.1什么是可缓存的 14.9.2什么能被缓存保存 14.9.3对基本过期机制的改进 14.9.4缓存重验证和加载控制(Cache Revalidation and Reload Controls) 14.9.5 No-Transform缓存控制指令 14.9.6缓存控制扩展(Cache control Extendions) 14.10 Connection 14.11 Content-Encoding 14.12 Content-Language 14.13 Content-Length 14.14 Content-Location 14.15 Content-MD5 14.16 Content-Range 14.17 Content-Type 14.18 Date 14.18.1没有时钟的源服务器运作 14.19 ETag 14.20 Expect 14.21 Expires 14.22 From 14.23 Host 14.24 If-Match 14.25 If-Modified-Since 14.26 If-None-Match 14.27 If-Range 14.28 If-Unmodified-Since 14.29 Last-Modified 14.30 Location 14.31 Max-Forwards 14.32 Pragma 14.33 Proxy-Authenticate 14.34 Proxy-Authorization 14.35 Range 14.35.1字节范围 (Byte Ranges) 14.35.2范围请求(Range Retrieval Requests) 14.36 Referer 14.37 Retry-After 14.38 Server 14.39 TE 14.40 Trailer 14.41 Transfer-Encoding 14.42 Upgrade 14.43 User-Agent 14.44 Vary 14.45 Via 14.46 Warning 14.47 WWW-Authenticate 15.安全考虑 (Security Consideration) 15.1 个人信息 (Personal Information) 15.1.1服务器日志信息的滥用 (Abuse of Server Log Information) 15.1.2敏感信息的传输 (Transfer of Sensitive Inforamtion) 15.1.3 URI中敏感信息的编码(Encoding Sensitive Information in URI’s) 15.1.4连接到Accept头域的隐私问题 15.2 基于文件和路径名称的攻击 15.3 DNS欺骗 15.4 Location头域和欺骗 15.5 Content-Disposition的问题 15.6 授权证书和空闲客户端
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值