一文读懂：HTTP如何进化为更安全的HTTPS协议

最新推荐文章于 2025-05-15 22:56:41 发布

原创最新推荐文章于 2025-05-15 22:56:41 发布 · 2.5k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#http #安全 #https #python #网络协议 #javascript

目前大部分网站是基于HTTP与HTTPS进行网络交互的，在爬虫程序中也是发送网络协议来获取对应的网站信息，所以还是有必要了解网络协议。

`HTTP`与`HTTPS`相关概念

HTTP

- 超文本传输协议
- 默认端口号：80

HTTPS

- HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协议
- 默认端口号：443

HTTPS比HTTP更安全，但是性能更低。

理解`HTTP`协议

HTTP协议使用了TCP协议，接下来我们使用网络调试助手软件发送HTTP协议并携带hello world数据到浏览器。

软件下载地址：NetAssist(网络调试助手)官方下载_NetAssist(网络调试助手)最新版v4.3.25免费下载_3DM软件

操作步骤：

设置网络调试助手为TCP Server端
浏览器链接网络调试助手
发送HTTP协议到浏览器并携带数据
断开连接，浏览器显示相应内容

`HTTP`协议的重要信息

在以上案例中，我们想要给浏览器发送信息并显示，就必须要带上HTTP协议。HTTP协议中有一部分数据对爬虫程序来说非常重要。分别是请求头与响应头。

常见的请求头参数

Host (主机和端口号)
Connection (链接类型)
Upgrade-Insecure-Requests (升级为HTTPS请求)
User-Agent(浏览器名称)
Accept (传输文件类型)
Referer (页面跳转处)
Accept-Encoding（文件编解码格式）
Cookie（Cookie信息）
x-requested-with :XMLHttpRequest (表示该请求是Ajax异步请求)

响应头参数

Set-Cookie （对方服务器设置cookie到用户浏览器的缓存）

响应状态码

200：成功
302：临时转移至新的url(一般会用GET，例如原本是POST则新的请求则是GET)
307：临时转移至新的url(原本是POST则新的请求依然是POST)
403：无请求权限
404：找不到该页面
500：服务器内部错误
503：服务不可用，一般是被反爬

浏览器发送`HTTP`请求过程

客户端发送网站域名到DNS服务器
DNS服务器返回IP地址到客户端
客户端根据返回的IP地址访问网站后端服务器并请求网站资源
网站后端服务器返回对应页面资源

`rebots`协议

网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，但它仅仅是互联网中的约定而已，可以不用遵守。例如：https://www.taobao.com/robots.txt

在后期的Scrapy框架学习中，需要手动关闭Robots协议，现阶段了解即可。

谷歌浏览器插件

XPath Helper
Web Scraper
Toggle JavaScript
User-Agent Switcher for Chrome
EditThisCookie
SwitchySharp

插件下载地址：

请求测试软件

PostMan：Download Postman | Get Started for Free

ApiPost：下载中心-Apipost-中文版接口调试与文档管理工具

一文读懂：HTTP如何进化为更安全的HTTPS协议

HTTP与HTTPS相关概念

理解HTTP协议

HTTP协议的重要信息

浏览器发送HTTP请求过程

rebots协议