爬虫基础—请求网页的过程（HTTP原理）

本文链接：https://blog.youkuaiyun.com/weixin_44697718/article/details/116837075

本文详细介绍了从在浏览器中输入URL到获取页面的全过程，包括URL的理解、HTML网页解析、HTTP与HTTPS协议的区别，以及请求与响应的具体步骤。通过示例分析了GET和POST请求的不同，以及请求头、响应状态码等内容，为理解网络爬虫的工作原理提供了基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

请求网页的过程（HTTP原理）

在浏览器中输入网址到获取页面之间发生了什么？
首先要明白网址是什么
- URL
浏览器中的网页是什么
- HTML
具体发生了什么

在浏览器中输入网址到获取页面之间发生了什么？

首先要明白网址是什么

URL

URL：Universal Resource Locator，统一资源定位符。举例来说：https://github.com/favicon.ico，它是一个URL。其中包含了访问协议https（后面内容）、访问路径（/即根目录）和资源名称favicon.ico。本质是一串身份证（数字代码），但用github.com（名字）来代替方便人类记忆。
类比现实即是我家在四川省，具体的资源名称就是具体的四川省成都市某地址，但实际上是3.1.9这样的代码，只是用人类更易记忆的形式代替。

浏览器中的网页是什么

HTML

浏览器中看到的网页就是超文本解析而成的，网页源代码是一系列HTML代码。浏览器解析HTML代码后便形成了网页，而网页的源代码HTML成为超文本（Hypertext）。
查看方法——网页打开开发者模式：
Ⅰ.网页空白处右键选择“检查”
Ⅱ.Elements中即为网页源代码
在这里插入图片描述

具体发生了什么

HTTP和HTTPS

https://github.com中的URL开头会有http或https，这是访问资源需要的协议类型。就好比快递中，我们需要先基于某协议（如：包裹丢失怎么办，加急件之类的）达成共识，才能保证高效而准确地传送包裹。同理，HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议，保证高效而准确地传送超文本文档。