分布式爬虫学习

静态网页爬虫

爬虫的基础技术:

  1. HTML
  2. CSS 选择器
  3. JavaScript 介绍
  4. lxml 及 XPath
  5. Python 里的网络请求
  6. 高速位缓存设计:BloomFilter

登录及动态网页的抓取

  1. 表单
  2. 网站登录及Cookie
  3. Headless 的浏览器:PhantomJS
  4. 浏览器的驱动:Selenium
  5. 动态网页数据获取

多线程与过进程的爬虫

  1. 线程与进程
  2. Python 的多线程约束
  3. 多个线程同时抓取
  4. 多个进程同时抓取

网页动态重拍及应对反爬虫技术的手段

  1. 网页抓取顺序重排
  2. 网站服务架构
  3. 寻找与利用分布式服务器
  4. 多IP技术与路由控制

分布式爬虫

多线程
多进程
多机
分布式数据库
分布式存储
主从服务器

开源项目

Heritrix,nutch等

参考

http://www.gooseeker.com/land/python.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值