爬虫基础—请求网页的过程(HTTP原理)

本文详细介绍了从在浏览器中输入URL到获取页面的全过程,包括URL的理解、HTML网页解析、HTTP与HTTPS协议的区别,以及请求与响应的具体步骤。通过示例分析了GET和POST请求的不同,以及请求头、响应状态码等内容,为理解网络爬虫的工作原理提供了基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在浏览器中输入网址到获取页面之间发生了什么?

首先要明白网址是什么

 URL

 URL:Universal Resource Locator,统一资源定位符。举例来说:https://github.com/favicon.ico,它是一个URL。其中包含了访问协议https(后面内容)、访问路径(/即根目录)和资源名称favicon.ico。本质是一串身份证(数字代码),但用github.com(名字)来代替方便人类记忆。
 类比现实即是我家在四川省,具体的资源名称就是具体的四川省成都市某地址,但实际上是3.1.9这样的代码,只是用人类更易记忆的形式代替。

浏览器中的网页是什么

 HTML

 浏览器中看到的网页就是超文本解析而成的,网页源代码是一系列HTML代码。浏览器解析HTML代码后便形成了网页,而网页的源代码HTML成为超文本(Hypertext)。
查看方法——网页打开开发者模式:
Ⅰ.网页空白处右键选择“检查”
Ⅱ.Elements中即为网页源代码
在这里插入图片描述

具体发生了什么

 HTTP和HTTPS

 https://github.com中的URL开头会有http或https,这是访问资源需要的协议类型。就好比快递中,我们需要先基于某协议(如:包裹丢失怎么办,加急件之类的)达成共识,才能保证高效而准确地传送包裹。同理,HTTP协议是用于从网络传输超文本数据到本地浏览器的传送协议,保证高效而准确地传送超文本文档。

  • HTTP协议是由万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet Engineering Task Force)共同合作制定的规范。目前广泛使用的是HTTP 1.1版本。

 HTTPS全称Hyper Text Transfer Protocol Over Secure Socket Layer,是以安全为目标的HTTP通道,简单来讲是HTTP的安全版。即HTTP下加入SSL层,简称HTTPS。

 具体过程

简单的理解过程:在浏览器中输入URL,浏览器向网站所在的服务器发送一个请求,网站服务器接收到这个请求进行处理和解析,然后返回对应的响应传回给浏览器。响应里面包含了页面的源代码等内容,浏览器再进行解析通过网页呈现。
在这里插入图片描述

示例:
Ⅰ.打开开发者工具
Ⅱ.输入URL回车观察网络请求
Ⅲ.Network页面下出现一个个条目,其中一个条目代表一次发送请求和接收响应的过程
Ⅳ.观察第一个网络请求:www.baidu.com
在这里插入图片描述

Ⅴ.点击条目,看到详细信息。总体分为三类:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值