新手入门Python网络爬虫，从零开始成为高手！

最新推荐文章于 2025-10-19 20:33:54 发布

原创最新推荐文章于 2025-10-19 20:33:54 发布 · 274 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言 #1024程序员节 #学习 #深度学习 #经验分享

本文介绍了Python的基础学习路径，包括计算机基础、语法、数据类型、文件处理、函数、模块、面向对象编程等，同时深入讲解了urllib和urllib2库、正则表达式、爬虫原理和Scrapy框架的应用。此外，还提供了学习路线、视频资源、书籍推荐、工具包和面试准备等内容。

前言

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。
在这里插入图片描述

我们要学习的共有以下几点：

Python基础知识
Python中urllib和urllib2库的用法
Python正则表达式
Python爬虫原理
Python爬虫框架Scrapy

一、Python基础学习

1 计算机基础及python介绍

1、计算机基础
2、编程语言及python介绍
3、换源下载模块
4、python2与python3的区别
5、PEP8 python编码规范
6、算法与数据结构

2 python入门基本语法

1、python入门语法
2、流程控制
3、python日志处理

3 数据类型及内置方法

1、数字类型
2、字符串类型
3、列表类型
4、元组类型
5、字典类型
6、集合

4 字符编码及文件处理

1、字符编码
2、深浅拷贝
3、文件处理

5 函数

1、函数的基本使用
2、函数的参数
3、函数对象
4、函数嵌套、名称空间及作用域
5、闭包函数
6、装饰器
7、迭代器
8、生成器
9、三元表达式、列表生成式与生成器表达式
10、面向过程编程
11、匿名函数与内置函数
12、函数递归
13、常见内置方法

6 模块与包

1、模块与包
2、软件开发目录规范
07 常用模块
1、turtle模块
2、time模块
3、pyinstaller模块
4、jieba模块
5、wordcloud模块
6、datetime模块

7 random模块

8、os模块
9、sys模块
10、hashlib模块
11、pickle模块
12、json模块
13、collections模块
14、openpyxl模块
15、subprocess模块
16、re模块
17、logging模块

8 面向对象

1、面向对象编程
2、面向对象三大特性之继承
3、面向对象之组合
4、面向对象三大特性之封装
5、面向对象三大特性之多态
6、反射
7、绑定方法与非绑定方法
8、类的内置方法（魔法方法）

9 单例模式

10、元类
09 网络编程
1、网络编程
2、socket套接字及粘包问题
3、Dns域名解析
4、一文搞懂BIO、NIO、I/O多路复用与异步AIO
5、一文搞懂 CGI, FastCGI, WSGI, uWSGI, uwsgi, ASGI

10 并发编程

1、并发编程基础及进程基础
2、进程进阶
3、线程
4、GIL全局解释器锁与协程
5、提高项目并发量

11 kafka

1、kafka基础原理
2、python操作kafka

二、Python urllib和urllib2 库的用法

urllib和urllib2库是学习Python爬虫最基本的库，利用这个库我们可以得到网页的内容，并对内容用正则表达式提取分析，得到我们想要的结果。这个在学习过程中我会和大家分享的。

三、Python 正则表达式

Python正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。这个在后面的博文会分享的。

四、爬虫基本原理

爬虫是模拟用户在浏览器或者App应用上的操作，把操作的过程、实现自动化的程序

当我们在浏览器中输入一个url后回车，后台会发生什么？比如说你输入https://www.baidu.com

简单来说这段过程发生了以下四个步骤：

查找域名对应的IP地址。
浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址向IP对应的服务器发送请求。
服务器响应请求，发回网页内容。
浏览器显示网页内容。

网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。

五、爬虫框架Scrapy

如果你是一个Python高手，基本的爬虫知识都已经掌握了，那么就寻觅一下Python框架吧，我选择的框架是Scrapy框架。这个框架有什么强大的功能呢？下面是它的官方介绍：

HTML, XML源数据选择及提取的内置支持
提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。
通过 feed导出提供了多格式(JSON、CSV、XML)，多存储后端(FTP、S3、本地文件系统)的内置支持
提供了media pipeline，可以自动下载爬取到的数据中的图片(或者其他资源)。
高扩展性。您可以通过使用 signals ，设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
内置的中间件及扩展为下列功能提供了支持：
cookies and session 处理
HTTP 压缩
HTTP 认证
HTTP 缓存
user-agent模拟
robots.txt
爬取深度限制
针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
支持根据模板生成爬虫。在加速爬虫创建的同时，保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
针对多爬虫下性能评估、失败检测，提供了可扩展的状态收集工具。
提供交互式shell终端 , 为您测试XPath表达式，编写和调试爬虫提供了极大的方便
提供 System service, 简化在生产环境的部署及运行
内置 Web service, 使您可以监视及控制您的机器
内置 Telnet终端，通过在Scrapy进程中钩入Python终端，使您可以查看并且调试爬虫
Logging 为您在爬取过程中捕捉错误提供了方便
支持 Sitemaps 爬取
具有缓存的DNS解析器