Python—初识爬虫 & requests库
浏览器的工作原理
首先我们需要明确三层关系:访问者(我们)—浏览器—服务器
再看下图,我们就能很轻松的理解了
爬虫的工作原理
那么爬虫是什么,爬虫是模仿一个浏览器,来进行后续的工作
所以啦,爬虫主要是做什么呢:
获取数据—解析数据—提取数据—存储数据
用requests库获取数据:可以帮我们下载网页源代码、文本、图片,音频等
安装requests库
Mac电脑:打开终端软件(terminal),输入pip3 install requests,点击enter;
Windows电脑:Ctrl + R 打开命令提示符(输入:cmd),再输入pip install requests,点击enter;
requests.get()方法
- 语法:res = requests.get(‘URL’) requests.get是在调用requests库中的get()方法;
- 它向服务器发送了一个请求,括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应;
- 我们可以把这个响应返回的结果赋值赋值给一个变量;