爬虫笔记

本文详细介绍了网络爬虫的三种类型:通用爬虫、聚焦爬虫和增量式爬虫,以及它们各自的工作原理。同时,讨论了网站的反爬机制与爬虫的反反爬策略,包括robots.txt协议和HTTP/HTTPS协议中的关键信息。还提到了Python中常用的requests模块在爬虫中的应用。最后,简要概述了数据加密技术和网络安全在爬虫实践中的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫

分类:

通用爬虫:
	抓取系统重要组成部分,抓取整张页面。
聚焦爬虫:
	建立在通用爬虫基础之上,抓取页面中特定的局部内容。
增量式爬虫:
	检测网站中数据更新的情况。只会抓取网站中最新更新出的数据。

矛与盾:

反爬机制:
	门户网站,通过制定相应策略或技术手段,防止爬虫程序进行网站数据的爬取。
反反爬策略:
	爬虫程序可以通过制定相关的策略或技术手段,破解门户网站的反爬机制,从而获取门户网站的数据。

robots.txt协议

规定了网站中那些数据可以被爬虫爬取。

http协议

概念:服务器与客户端及逆行数据交互的一种形式。

常用请求头信息:

User-Agent:请求载体的身份标识
Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息

Content-Type:服务器响应回客户端的数据类型

https协议

安全的超文本传输协议(数据加密)

加密方式:

对称密钥加密
非对称密钥加密
证书密钥加密

requests模块:

python中原生的一款基于网络请求的模块,功能强大简单便捷。
作用:模拟浏览器发请求。
使用(requests模块的编码流程)
	指定url发起请求获取响应数据持久化存储
环境安装:
	pip install requests
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值