Python【Crawler】0-爬虫总叙

使用场景

  • 通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据
  • 聚焦爬虫:建立在通用爬虫之上,抓取的是页面中特定的局部内容
  • 增量爬虫:检测网站中数据更新的情况,只会抓取网站中最新的数据

矛与盾

  • 反爬机制:门户网站,可以通过指定相应的策略或技术手段,防止爬虫程序进行爬取

    • 检查User-Agent
    • IP屏蔽
  • 抗反爬策略:通过制定相关策略或技术手段破解门户网站的反爬机制。

    • UA伪装
    • IP代理
  • robots.txt 协议 —— 君子协议:规定了网站中哪些数据可以被爬虫爬取,哪些数据不可以被爬取

  • http

    • 概念:服务器与客户端数据交互的一种形式
    • 常用请求头信息:
      • User-Agent:请求载体的身份载体
      • Connection:请求完毕后,是否断开连接
    • 常用响应头信息:
      • Content-Type:服务器响应回客户端的数据类型
  • https
    安全的http协议

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TCP404

老板大方~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值