HTTP协议概述
HTTP协议,超文本传输协议,是TCP/IP协议族中一种用于应用层的协议。
计算机网络的终极目的便是在计算机之间实现资源共享和数据传输,而HTTP只是其手段之一。
HTTP协议可以看作客户端终端和服务器端 请求和应答 的标准。通过使用网页浏览器、网络爬虫或其他工具,客户端发起一个HTTP请求到服务器上的指定端口(默认端口为80)。我们称这个客户端为用户代理程序(user agent)。应答的服务器上存储着一些资源,比如HTML文件和图像。我们称这个应答服务器为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”,比如代理服务器、网关或者隧道(tunnel)。
尽管TCP/IP协议是互联网上最流行的应用,HTTP协议中,并没有规定必须使用它或它支持的层。事实上,HTTP可以在任何互联网协议上,或其他网络上实现。HTTP假定其下层协议提供可靠的传输。因此,任何能够提供这种保证的协议都可以被其使用。因此其在TCP/IP协议族使用TCP协议作为其传输层。
通常,由客户端发起一个请求,创建一个到服务器指定端口(默认是80端口)的TCP连接。HTTP服务器则在那个端口监听客户端的请求。一旦收到请求,服务器会向客户端返回一个状态,比如"HTTP/1.1 200 OK",以及返回的内容,如请求的文件、错误消息、或者其它信息。
HTTP协议的特点
无连接:限制每次连接只处理一个请求。服务器处理完请求,并收到客户的应答后,即断开连接,但是却不利于客户端与服务器保持会话连接。
无状态:无状态是指协议对于事务处理没有记忆,后续处理需要前面的信息,则必须重传。
为了弥补HTTP无连接和无状态的缺点,产生了两项记录用户状态的技术,Cookie和Session。
HTTP报文结构
请求报文
首部行中存放一些首部的字段名和值。首部行之后会有一个请求空行,表示不再有请求的头部信息。
实体:相关备注信息,一般不用。
响应报文
HTTP工作原理
HTTP协议定义了客户端如何向服务器请求Web页面,以及服务器如何把Web页面传给客户端。
HTTP请求/响应的步骤:
1. 客户端连接到Web服务器
一个HTTP客户端,通常是浏览器,与Web服务器的HTTP端口(默认为80)建立一个TCP套接字连接(三次握手)。
2. 发送HTTP请求
通过TCP套接字,客户端向服务器发送请求报文。一个请求报文由请求行,请求头部,空行和请求数据组成。
3. 服务器接受请求并返回HTTP响应
服务器解析请求,定位请求资源。服务器将资源写到TCP套接字,由客户端读取。一个响应由状态行,状态头部,空行和响应数据组成。
4. 释放TCP连接
四次挥手。
5. 客户端浏览器解析响应
客户端首先解析状态行,查看表明请求是否成功的状态码。然后解析每一个响应头,响应头告知以下为若干字节的HTML文档和文档的字符集。客户端读取响应数据,解析HTML,在浏览器窗口中显示。
在浏览器地址栏中输入URL,按下回车会经历以下流程:
- 浏览器向DNS服务器请求解析该URL中域名对应的 ip地址。
- 浏览器根据ip地址和端口号,与服务器建立TCP连接(三次握手)。
- 浏览器发送HTTP请求,该请求报文作为TCP三次握手的第三个报文数据发送给服务器。
- 服务器对请求作出响应,把对应html资源发送给客户端。
- 释放TCP连接。
- 浏览器解析响应。
HTTP状态码
URL
URL是HTTP的统一资源定位符,包含了用于查找某个资源的足够的信息。将从因特网获取信息的五个基本元素包括在一个简单的地址中:
以http://www.luffycity.com:80/news/index.html?id=250&page=1 为例, 其中:
http,是协议;
www.luffycity.com,是服务器;
80,是服务器上的默认网络端口号,默认不显示;
/news/index.html,是路径(URI:直接定位到对应的资源);
?id=250&page=1,是查询参数。
大多数网页浏览器不要求用户输入网页中“http://”的部分,因为绝大多数网页内容是超文本传输协议文件。同样,“80”是超文本传输协议文件的常用端口号,因此一般也不必写明。一般来说用户只要键入统一资源定位符的一部分(www.luffycity.com:80/news/index.html?id=250&page=1)就可以了。
HTTPS协议
基于HTTP协议,通过SSL或TLS提供加密处理数据、验证对方身份以及数据完整性保护。
而且HTTPS有如下特点:
- 内容加密:采用混合加密技术,中间者无法直接查看明文内容
- 验证身份:通过证书认证客户端访问的是自己的服务器
- 保护数据完整性:防止传输的内容被中间人冒充或者篡改
HTTP和HTTPS的不同:
1. 信息传输的安全性不同
HTTP是明文传输,攻击者能够轻易拦截并读取浏览器和服务器之间的传输报文。
HTTPS是加密传输,对数据进行加密,确保数据安全。
2. 连接方式不同
HTTP是无连接、无状态的。
HTTPS是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议。
3. 端口不同
4. 证书申请方式不同
http协议的证书免费申请。
https协议:需要到ca申请证书,需交费。