静态网页爬虫
爬虫的基础技术:
- HTML
- CSS 选择器
- JavaScript 介绍
- lxml 及 XPath
- Python 里的网络请求
- 高速位缓存设计:BloomFilter
登录及动态网页的抓取
- 表单
- 网站登录及Cookie
- Headless 的浏览器:PhantomJS
- 浏览器的驱动:Selenium
- 动态网页数据获取
多线程与过进程的爬虫
- 线程与进程
- Python 的多线程约束
- 多个线程同时抓取
- 多个进程同时抓取
网页动态重拍及应对反爬虫技术的手段
- 网页抓取顺序重排
- 网站服务架构
- 寻找与利用分布式服务器
- 多IP技术与路由控制
分布式爬虫
多线程
多进程
多机
分布式数据库
分布式存储
主从服务器
开源项目
Heritrix,nutch等