爬虫
分类:
通用爬虫:
抓取系统重要组成部分,抓取整张页面。
聚焦爬虫:
建立在通用爬虫基础之上,抓取页面中特定的局部内容。
增量式爬虫:
检测网站中数据更新的情况。只会抓取网站中最新更新出的数据。
矛与盾:
反爬机制:
门户网站,通过制定相应策略或技术手段,防止爬虫程序进行网站数据的爬取。
反反爬策略:
爬虫程序可以通过制定相关的策略或技术手段,破解门户网站的反爬机制,从而获取门户网站的数据。
robots.txt协议
规定了网站中那些数据可以被爬虫爬取。
http协议
概念:服务器与客户端及逆行数据交互的一种形式。
常用请求头信息:
User-Agent:请求载体的身份标识
Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
Content-Type:服务器响应回客户端的数据类型
https协议
安全的超文本传输协议(数据加密)
加密方式:
对称密钥加密
非对称密钥加密
证书密钥加密
requests模块:
python中原生的一款基于网络请求的模块,功能强大简单便捷。
作用:模拟浏览器发请求。
使用(requests模块的编码流程)
指定url发起请求获取响应数据持久化存储
环境安装:
pip install requests