(标题是参考番茄爆文起的,是玩梗,别太在乎)
1. 非编程的爬虫实现工具
- 八爪鱼:这个我用过,对简单的网站来说很好用,比编程要简单多了
八爪鱼采集器 - 免费网络爬虫软件_网页大数据抓取工具 - screen-scraper: Data extraction software and services
- 爬山虎
- NaiboWang/EasySpider: A visual no-code/code-free web crawler/spider易采集:一个可视化爬虫软件,可以无代码图形化的设计和执行爬虫任务:这个是一位浙大同学开发的工具
- Portia
2. 编程爬虫
2.1 IP代理
在网上可以找到一些免费代理池,我之前就是因为免费代理池实在是都用不了,所以找了一家付费的,一台(一次产生一个IP地址,有效性3-5分钟)一月150元。我也不知道这个价位怎么样,没试过别人家的。
没有试过:
扒代理池的网站(需要上外网):Eeyhan/IPproxy: 代理ip池,爬取主流免费代理,自动做去重处理,自动测试代理可用性,并已附带了常用请求头
2.2 robots协议
2.3 Python爬虫辅助工具
- re
- json
- BeautifulSoup:解析HTML代码(比正则表达式更好用嘛) Beautiful Soup 4.4.0 文档 — Beautiful Soup 4.2.0 中文 文档
- requests
- urllib2
- scrapy
Scrapy Tutorial Series: Web Scraping Using Python | AccordBox
Scrapy入门教程 — Scrapy 0.24.1 文档 - fiddler:抓包分析
- wireshark
- PySpider
- PhantomJS
- Selenium
- Crawley
- codelucas/newspaper: newspaper3k is a news, full-text, and article metadata extraction in Python 3. Advanced docs::关注新闻、文章的采集和处理,可以从网页中直接扒下文章
- cola
- Selenium:自动化测试,模拟浏览器操作
- Splash:JavaScript渲染服务
- WebSockets
2.4 Python爬虫示例
优快云不让发,所以我在别的平台发了。
- 豆瓣
- 爬取通过关键词搜索的豆瓣书籍信息:从0开始的爬虫实践项目 (1):豆瓣用关键词搜索书籍 - 掘金 或 如何写爬虫程序爬取豆瓣网或者新浪微博里的内容? - 风霜刀剑严相逼的回答 - 知乎
- 晋江
- 起点
- 番茄
- 新浪新闻
- 雪球
- 东方财富网
2.5 其他爬虫学习资料
- python高级—— 从趟过的坑中聊聊爬虫、反爬、反反爬,附送一套高级爬虫试题 - Eeyhan - 博客园:这篇写得不错,很细节
- 这可能是你见过的最全的网络爬虫干货总结! - 腾讯云开发者社区-腾讯云:这篇是崔庆才大神写的
- 爬虫爬取动态网页的三种方式简介 | K0rz3n’s Blog:主要关注动态网页的爬取,在我的豆瓣那篇项目里面用的就是直接逆向回溯的方法
- 面向GPT-4爬虫!_chatgpt4写爬虫-优快云博客
- Python爬虫_一晌小贪欢的博客-优快云博客