python网络爬虫（一，抓取网页的含义和URL基本构成）

最新推荐文章于 2023-04-14 10:23:45 发布

TroKey

最新推荐文章于 2023-04-14 10:23:45 发布

阅读量496

点赞数

CC 4.0 BY-SA版权

分类专栏： Python Python爬虫文章标签：网络爬虫 URL URI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/TroKey/article/details/84750854

Python 同时被 2 个专栏收录

37 篇文章

订阅专栏

3 篇文章

订阅专栏

本文介绍了网络爬虫的基本概念，包括网络爬虫的工作原理、如何通过URL获取网页内容，以及URI和URL的区别。同时，详细解释了URL的组成部分及其在网络爬虫中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1，网络爬虫的定义

网络爬虫（Web Spider），把互联网比作一张蜘蛛网，Spider就是在这张蜘蛛网上面爬来爬去的蜘蛛。Spider从网站的某一个页面开始读取网页内容，找到这个网页的链接地址，然后通过这个链接地址找下一个网页内容，这样一直循环直到将整个网站的所有网页抓取完为止。

2，浏览网页的过程

浏览器中输入“www.baidu.com”后，向服务器发送了一次请求，把服务端的文件抓取过来，浏览器再进行解析、展现出来给我们看。HTML是一种标记语言，用标签标记内容并加以解析和区分。

3，URI的理解

我们通常看到的是类似“www.baidu.com”这样的是URL，这样在浏览器里面输入的字符串。

那么URI是什么呢？Web上每种资源，如html文档、图像、视频、程序等都是一个通用资源标识符（Universal Resource Identifier，简称URI）进行定位。

URI分为三个部分组成：

①，访问资源的命名机制

②，存放资源的主机名

③，资源自身的名称，由路径表示。

比如：http://xiaojingjing.iteye.com/admin/blogs/new ，这个就是URI。我们可以这样解释：

①，这是通过http协议访问的资源

②，位于主机xiaojingjing.iteye.com上

③，通过路径“/admin/blogs/new”来访问

4,URL的理解

URL是URI的一个子集，它是Uniform Resource Locator的缩写，意思是“统一资源定位符”。

可以说URL是Internet上描述信息资源的字符串，采用URL可以用统一的格式来描述各种信息资源，包括文件、服务器地址和目录等，主要用在www客户端和服务器程序上。

URL分为三个部分组成：

①请求协议（或称为服务方式）

②存放该资源主机的IP地址，有时候也包括端口号。

③主机资源的具体位置，如目录和文件名等。

爬虫最重要的处理对象是URL，它根据URL地址取得所需要的文件内容，然后对它进一步处理。因此，准确的理解URL对理解网络爬虫至关重要。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。