爬虫概念
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。
- 通用爬虫:抓取系统重要组成部分,抓取的是一整张页面数据。
- 聚焦爬虫:是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。
- 增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。
http&https协议
https协议
常用请求头信息
- User-Agent:请求载体的身份标识(检查-network-headers或者chrome://version/)
- connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
- content-type:服务器响应回客户端的数据类型
https协议
安全的http协议
加密方式
- 对称密钥加密
- 非对称密钥加密
- 证书密钥加密(https的加密方式)
requests模块
介绍
python中原生的一款基于网络请求的模块,用来模拟浏览器发请求。
使用
- 指定URL
- 发起请求(get / post)
- 获取响应数据
- 持久化存储响应的数据
爬取搜狗首页

注意:取名字时不要取模块名字,否则会误认为是引用文件而非模块,会产生报错
本文介绍了爬虫的基本概念,包括通用爬虫、聚焦爬虫和增量式爬虫的区别,重点关注了HTTP和HTTPS协议,以及如何使用Python的requests模块进行网络请求。特别提到了User-Agent和常用响应头信息。以爬取搜狗首页为例,提醒读者注意命名模块以避免错误。
4240

被折叠的 条评论
为什么被折叠?



