Python—初识爬虫 & requests库

本文介绍了Python爬虫的基础知识,包括浏览器工作原理、爬虫的工作原理以及requests库的使用。阐述了如何通过requests库获取网页数据,如源代码、文本、图片等,并提到了安装requests库的方法。此外,还讨论了Response对象的常用解析属性和HTTP响应状态码,以及robots协议的重要性,它指导爬虫哪些网页可以爬取,哪些不能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

浏览器的工作原理

首先我们需要明确三层关系:访问者(我们)—浏览器—服务器
再看下图,我们就能很轻松的理解了
在这里插入图片描述

爬虫的工作原理

那么爬虫是什么,爬虫是模仿一个浏览器,来进行后续的工作
在这里插入图片描述
所以啦,爬虫主要是做什么呢:
获取数据—解析数据—提取数据—存储数据

用requests库获取数据:可以帮我们下载网页源代码、文本、图片,音频等
安装requests库

Mac电脑:打开终端软件(terminal),输入pip3 install requests,点击enter;
Windows电脑:Ctrl + R 打开命令提示符(输入:cmd),再输入pip install requests,点击enter;

requests.get()方法
  1. 语法:res = requests.get(‘URL’) requests.get是在调用requests库中的get()方法;
  2. 它向服务器发送了一个请求,括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应;
  3. 我们可以把这个响应返回的结果赋值赋值给一个变量;

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值