爬虫笔记

最新推荐文章于 2025-03-18 19:15:00 发布

无敌锅包肉

最新推荐文章于 2025-03-18 19:15:00 发布

阅读量239

点赞数 1

文章标签： python https http

本文链接：https://blog.youkuaiyun.com/weixin_45322291/article/details/109065651

版权

本文详细介绍了网络爬虫的三种类型：通用爬虫、聚焦爬虫和增量式爬虫，以及它们各自的工作原理。同时，讨论了网站的反爬机制与爬虫的反反爬策略，包括robots.txt协议和HTTP/HTTPS协议中的关键信息。还提到了Python中常用的requests模块在爬虫中的应用。最后，简要概述了数据加密技术和网络安全在爬虫实践中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬虫

分类：

通用爬虫：
	抓取系统重要组成部分，抓取整张页面。
聚焦爬虫：
	建立在通用爬虫基础之上，抓取页面中特定的局部内容。
增量式爬虫：
	检测网站中数据更新的情况。只会抓取网站中最新更新出的数据。

矛与盾：

反爬机制：
	门户网站，通过制定相应策略或技术手段，防止爬虫程序进行网站数据的爬取。
反反爬策略：
	爬虫程序可以通过制定相关的策略或技术手段，破解门户网站的反爬机制，从而获取门户网站的数据。

robots.txt协议

规定了网站中那些数据可以被爬虫爬取。

http协议

概念：服务器与客户端及逆行数据交互的一种形式。

常用请求头信息：

User-Agent：请求载体的身份标识
Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息

Content-Type：服务器响应回客户端的数据类型

https协议

安全的超文本传输协议（数据加密）

加密方式：

对称密钥加密
非对称密钥加密
证书密钥加密

requests模块：

python中原生的一款基于网络请求的模块，功能强大简单便捷。
作用：模拟浏览器发请求。
使用（requests模块的编码流程）
	指定url发起请求获取响应数据持久化存储
环境安装：
	pip install requests