在了解爬虫前,我们需要先简单的了解什么是网络连接。
一、网络连接
网络连接的基本原理就是计算机发送一次Request请求包和服务器回复一个Response响应包,即完成完成一次网络连接。
Request包主要有请求头、消息体等
Response主要有html,json,图片,视频等
二、爬虫原理
爬虫简单来讲就是两件事:
1.模拟计算机向服务器发送Request请求包。
2.接收服务器的Response响应包,并解析响应包,从中提取我们想要的内容。
多页面爬虫
像这种多页面结构网页有很多页,但每页的结构基本一样,爬取这种网站的基本流程为:
- 手动观察各页面URL的构成特点,然后构造出所有页面的URL存入列表。
- 定义爬虫函数。
- 循环调用爬虫函数,爬取URL列表里的每个网页的数据。
- 每爬取一次网页,解析该网页数据,提取所需信息,并存储数据。