爬虫:基本流程和robots协议

基本流程:

1.确认目标:url:www.baidu.com

2.发送请求:发送网络请求,获取到特定的服务端给你的响应

3.提取数据:从响应中提取特定的数据

4.保存数据:本地(html,json,txt),数据库

获取到的响应中,有可能会提取到还需要继续发送请求的url,可以拿着解析到的url继续发送请求

robots协议:并不是规范,只是约定俗成的,是一种通过简单文本文件(robots.txt)来规范搜索引擎爬虫等网络机器人对网站内容访问行为的协议。

  1. User - Agent: 用于指定适用的爬虫名称,* 代表所有爬虫。
  2. Disallow: 后面跟禁止访问的路径,例如 /private/ 表示禁止访问所有以 /private/ 开头的目录。
  3. Allow: 用于允许访问特定路径,常常和 Disallow 配合使用。
  4. Sitemap: 可指定网站地图文件的位置,方便爬虫快速发现网站内容。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值