python 爬虫工具记录

本文精选了一系列常用的网络爬虫工具及库,包括Requests、pyspider、Scrapy、Requests-HTML、Selenium等,涵盖了从简单的HTTP请求到复杂的异步抓取等多种应用场景。此外还介绍了几种常用的解析库如lxml、BeautifulSoup、pyquery等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

记录一些常用的爬虫工具:

常用爬虫库

1、Requests

比较简单,常用的爬虫库

2、pyspider

一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器

3、Scrapy

Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。

4、Requests-HTML

requests-html 是基于现有的框架 PyQuery、Requests、lxml、beautifulsoup4等库进行了二次封装,作者将Requests设计的简单强大的优点带到了该项目中。

5、Selenium

Selenium也是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。

ChromeDriver:驱动谷歌浏览器的插件

8、PhantomJS

PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。

可配合Selenium使用

9、aiohttp

实现异步爬虫的方法

解析库

1、lxml

2、Beautiful Soup

3、pyquery

4、tesserocr

获取解析页面数据的方法

1、re正则匹配

2、XPath匹配

3、select匹配

4、json 某些页面需要json处理数据

App的爬取(暂没涉及)

1、Charles

2、mitmproxy

3、mitmdump

4、Appium

爬虫学习网站:

1、崔庆才博客,有很多好文章

网站主页:https://cuiqingcai.com

Python3网络爬虫开发实战教程:https://cuiqingcai.com/5052.html

2、测试教程网

http://www.testclass.net/

3、知乎爬虫汇总资料

https://zhuanlan.zhihu.com/p/24358829?refer=passer#!





评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值