Python笔记：网络爬虫概述与工作原理

最新推荐文章于 2025-09-27 11:33:04 发布

原创最新推荐文章于 2025-09-27 11:33:04 发布 · 837 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #爬虫原理

Python 同时被 2 个专栏收录

110 篇文章

订阅专栏

Regular Expression

4 篇文章

订阅专栏

本文介绍了网络爬虫的基本概念，包括其分类如通用、聚焦、增量及深层爬虫，应用场景涉及科学研究、Web安全、产品研发及舆情监控。文章还探讨了爬虫的执行过程、使用的工具和技术，以及合法性和反爬虫技术。

部署运行你感兴趣的模型镜像

概述

网络爬虫(web spider) 又称为网络蜘蛛、网络机器人，是一种按一定规则，自动抓取万维网信息的程序或脚本

按系统结构和实现技术进行分类

通用网络爬虫：尽可能大的网络覆盖率，如百度，谷歌搜索
聚焦网络爬虫：有目标性，选择性访问万维网爬取信息
增量式网络爬虫：只爬取新产生或已经更新的网页信息。特点：耗费少，难度大
深层网络爬虫：通过提交一些关键字才能获取的Web页面, 如登录或注册后访问的页面

在实际应用中通常是以上几种爬虫技术的结合实现

爬虫应用场景

科学研究：在市场上通过爬虫获取大量数据，获取我们所需要的信息，进行科学研究
Web安全：通过爬虫实现漏洞检测功能
产品研发：通过获取的数据，进行分析，进行市场研究，可以更好的研发新产品
舆情监控：分析识别如微博数据中某些用户是否是水军

网络爬虫的合法性

在很多网站根路径下会有个robots.txt文档，如果没有这个文档，那么网站所有数据都可以爬取
在有次文档的网站下，需要判断是否有禁止访客获取数据
文档举例: https://www.taobao.com/robots.txt 可以查看淘宝网站里面的具体规则

网络爬虫的执行过程

①. 获取初始URL
②. 爬取存储页面内容, 并获取新的URL
③. 将新的URL放在存储队列中
④. 在存储队列中读取新的URL
⑤. 判断是否满足结束条件，如果是，则停止爬取；如果否，则回到②

单项爬取中的几个工具

通过上面可知道如何批量执行，下面说下单项的执行过程

①. 主调度器：用于控制调度整个爬取过程
②. url管理器：使用url管理器获取url
③. 下载器：下载url中的内容
④. 解析器：解析url中的数据
⑤. 数据库：对有价值的数据进行更新、入库

网络爬虫使用的技术

网络爬虫框架：scrapy
python中相关的库：urllib、urllib3、requests、mechanize、selenium、splinter
- 其中 urllib、urllib3、requests、mechanize 用来获取URL对应的原始响应内容 (高效)
- 其中 selenium、splinter 通过加载浏览器驱动, 获取浏览器渲染后的响应内容，模拟程度更高 (低效)
对于爬取的过程，主要是模拟浏览器向服务器发送构造好的http请求，常见类型有：get / post
对于数据解析方面，有相应的库：lxml, beautifulsoup4, re, pyquery等，常用方法：xpath路径表达式、css选择器 、正则表达式等
- xpath路径表达式 、 css选择器 主要用于提取结构化数据
- 正则表达式 用于提取非结构化的数据

爬虫其他相关技术：

数据抓取
- HTTP 协议、身份认证机制(Cookie)
- 网络流量分析: Chrome、Firefox,Firebug、Fiddler、Burpsuit
数据解析
- HTML结构、JSON数据格式、XML数据格式
- CSS选择器、Xpath路径表达式、正则表达式、Python编码/解码
数据入库
- 结构化数据库：MySQL、SQLite
- 非结构化数据库：Redis
其他
- 多线程、任务调度、消息队列、分布式爬虫、图像识别、反爬虫技术

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Wang's Blog 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。