网络爬虫(Web Crawler/Spider)
数据采集的主要方式
按照一定规则,自动抓取万维网信息的程序或者脚本
部分或者全部抽取抓取到的信息,使数据进一步结构化
合法性–Robots协议
深度与广度优先
* 静态和动态网页爬虫
静态网页:爬虫逻辑比较简单
动态网页:网页读取过程需要额外的加载过程
泛用和主爬虫
网络爬虫的基本架构
爬取模块
URL批量获取数据,模拟http请求过程
抽取模块
抽取URL加入队列,使程序持久化
将原本被HTML、XML、JSON进一步结构化
数据存储模块
辅助模块
持久化、队列与多线程
网络爬虫的HTTP原理
linux下在终端输入以下命令:
curl -v http://httpbin.org/get
可以查看HTTP请求的简要过程