数据采集----网络爬虫(一)

在这里插入图片描述

网络爬虫(Web Crawler/Spider)

数据采集的主要方式
按照一定规则,自动抓取万维网信息的程序或者脚本
部分或者全部抽取抓取到的信息,使数据进一步结构化

合法性–Robots协议

深度与广度优先

* 静态和动态网页爬虫

静态网页:爬虫逻辑比较简单
动态网页:网页读取过程需要额外的加载过程
在这里插入图片描述

泛用和主爬虫

在这里插入图片描述

网络爬虫的基本架构

在这里插入图片描述

爬取模块

URL批量获取数据,模拟http请求过程

抽取模块

抽取URL加入队列,使程序持久化
将原本被HTML、XML、JSON进一步结构化

数据存储模块

辅助模块

持久化、队列与多线程

网络爬虫的HTTP原理

在这里插入图片描述
linux下在终端输入以下命令:

curl -v http://httpbin.org/get

可以查看HTTP请求的简要过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值