第一个python爬虫（python3爬取百度百科1000个页面）

最新推荐文章于 2025-08-06 17:58:15 发布

oldbig_lin

最新推荐文章于 2025-08-06 17:58:15 发布

阅读量5.4k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： Python爬虫

本文链接：https://blog.youkuaiyun.com/JavaLixy/article/details/77151341

这篇博客介绍了作者初次尝试Python3爬虫，通过爬虫调度端启动和监控爬虫，从百度百科抓取了1000个页面的数据。文中讲解了简单的爬虫架构，包括爬虫调度端的角色以及爬虫程序中的URL下载模块、HTML解析模块和数据存储模块的工作原理。

以下内容参考自：http://www.imooc.com/learn/563

一、爬虫简介

爬虫：一段自动抓取互联网信息的程序

爬虫可以从一个url出发，访问其所关联的所有的url。并从每个url指向的网页中，获取我们所需要的信息。

二、简单爬虫架构

1.Python简单爬虫架构

（1）爬虫调度端：启动爬虫、停止爬虫、监视爬虫的运行情况。

（2）在爬虫程序中，有三个模块：

1）Url管理器：管理将要爬取的url和已经爬取的url。将待爬取的url传送给网页下载器。
2）网页下载器：将Url指定的网页下载下来，保存为一个字符串。将这个字符串传送给网页解析器进行解析。
3）网页解析器：一方面，会解释出有价值的数据；另一方面，解析出字符串中的url，将其补充到url管理器。
这三个模块，形成了一个循环。只有有未爬取的url，这个循环就会一直继续下去。

2.Python简单爬虫架构的动态运行流程

最低0.47元/天解锁文章

200万优质内容无限畅学