爬虫学习 pyspider和scrapy小结 / 与其他工具对比

本文链接：https://blog.youkuaiyun.com/u011521609/article/details/79316576

本文总结了作者在学习和使用pyspider及scrapy爬虫框架的心得体会，强调了框架在简化爬虫开发中的重要性。pyspider虽然文档齐全但网上资源较少，适合基础需求；而scrapy灵活性高，网络资源丰富，适合复杂场景。作者认为，对于业务公司而言，选择稳定、低成本的技术更为关键。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从火车头了解了翻页与正则表达式带入了爬虫原理、后python的urllib和requests彻底梳理了爬虫过程，之后引入phantomjs chromedriver这些彻底解决了爬虫问题，但是这些太琐碎，而且反爬虫越来越厉害，必须升级爬取武器到专业级别。

用python实现了基本爬虫之后，相比火车头工具，再次体验到了代码在灵活度和速度方面的魅力（之前用python用正则表达式处理文本数据速度是excel的10倍），数据采集全面转向python，对爬虫的关键几步也更加清晰：

1，构造url：包括单页、逐层深入、翻页、传入一个网页list；各种参数例如headers参数
2，访问并下载目标页面
3，目标页面类型定义与解析，解析是根本，看返回的目标类型。
4，存储
5，各种配置，例如限制速度
6，高阶的：各种反爬虫、分布式、断网怎么办、防止重复爬！

上面的流程有很多技术细节，其中从技术上可以分为三个：

1，了解http相关的知识，例如访问、下载，还有分布式，这块东西太多了，绝非易事！因此最容易产生各种问题。
2，构造url，这里包括url表达和相关的参数，积累多了也就熟练了。
3，phantomjs操作
4，解析数据，正则表达式（虽然使用起来最麻烦，但是实际操作来看必不可少）、bs4、css、xpath这些，掌握的方法也是多用，多积累代码。

以上应用爬虫的人最关心同时最应该花费心思的就是