记录一些常用的爬虫工具:
常用爬虫库
1、Requests
比较简单,常用的爬虫库
2、pyspider
一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器
3、Scrapy
Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。
4、Requests-HTML
requests-html 是基于现有的框架 PyQuery、Requests、lxml、beautifulsoup4等库进行了二次封装,作者将Requests设计的简单强大的优点带到了该项目中。
5、Selenium
Selenium也是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。
ChromeDriver:驱动谷歌浏览器的插件
8、PhantomJS
PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。
可配合Selenium使用
9、aiohttp
实现异步爬虫的方法
解析库
1、lxml
2、Beautiful Soup
3、pyquery
4、tesserocr
获取解析页面数据的方法
1、re正则匹配
2、XPath匹配
3、select匹配
4、json 某些页面需要json处理数据
App的爬取(暂没涉及)
1、Charles
2、mitmproxy
3、mitmdump
4、Appium
爬虫学习网站:
1、崔庆才博客,有很多好文章
网站主页:https://cuiqingcai.com
Python3网络爬虫开发实战教程:https://cuiqingcai.com/5052.html
2、测试教程网
http://www.testclass.net/
3、知乎爬虫汇总资料
https://zhuanlan.zhihu.com/p/24358829?refer=passer#!