python网络爬虫从入门到精通导读

最新推荐文章于 2025-04-28 18:07:56 发布

wzc_w_z_c_

最新推荐文章于 2025-04-28 18:07:56 发布

阅读量329

点赞数

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wzc_w_z_c_/article/details/106009043

python网络爬虫从入门到精通导读

刚刚接触爬虫的概念，感觉这种书直接读会读不下去（之前被c++primer读怕了）所以就尝试某大神的方法，先把书中的内容都扫一遍把概念整理清楚再上手开发。

第二章数据采集

正则表达式：查找某种符合一定格式的字符串、寻找ping信息的时间结果、抓取网页上特定内容的图片

beatifulsoup ：python库，作用同正则表达式。

Xpath:在XML中搜索信息的语言，

遍历多页面的爬虫：搜索360网页显示关键词的网页的大致信息，并且可以支持翻页查询。

使用API：用HTTP协议向API发起某种请求，获得某种信息，用JSON返回服务器响应。用API调用google地图的地理位置。

第三章文件与数据储存

python中的文件读写 ：&python对图片（pIL&OPENCV）和字符串的操作

CSV文件：读写

使用数据库：使用mysql，SQLAlchemy,Redis，doxc文档

第四章 JS与动态内容

JS&AJAX：是一种技术，允许浏览器通过异步请求来获取数据，相当于每次只刷新一点（可以理解为下拉刷新）

流程：发送请求，获得数据，显示元素，改变网页

例子：对携程常见问答的爬取。对bilibili的特别推荐进行爬取。

抓取动态内容：使用Selenium来模拟用户的行为。

V8引擎：能够用来执行JS的运行工具，可以类比为一个浏览器。

第五章表单与模拟登陆

post: 一些简单的信息可以用HTTP GET 来获得，但是要用post 表单来传输一些比较机密、正规的文件。可以直接用request库中的，post（）方法。

Cookies：让服务器记住终端用户，在本地存放一个小文本文件。可以使用cookies进行模拟登陆。

验证码：三种方式，程序识别图片，手动打码，人工打码服务平台。

第六章数据的进一步处理

python文本分析：jieba与sonenlp，为自然语言处理做准备。

科学库的使用：numpy，matplotlib（看利用python进行数据分析那章）

第七章更灵活的爬虫

vps：用强大的爬虫可以开发出效率高，扩展性强的程序，但是自己的机器资源有限，要部署到远程服务端上。（但是现在就是流行云服务器，这个东西可以直接不学，看看能不能部署到云服务器上面）

VPS流程：配置远程主机，编写本地爬虫，部署爬虫，查看运行结果，使用爬虫管理框架。

第八章浏览器模拟与网站测试

测试：确定某一个小功能是否正确，可以用python的unittest来测试，和pytest模块。设计JS用selenium测试。

第九章更猛的爬虫

Scrapy框架：

反爬虫：

多进程：

分布式爬虫

之后就都是爬虫实践了，我会将自己的学习过程同样发布，望点赞支持

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。