爬虫一般依赖于requests库,首先通过pip或conda命令安装requests库。切换到自己环境所在的终端。输入以下命令:
pip install requests / pip install requests
然后在自己的环境中导入requests库看会不会报错。
import requests
库安装没有问题后开始使用requests库进行第一个Python爬虫。
目的爬取百度页面,并且将其打印出来,并消除其打印出来时可能会发生的乱码。以下给出代码:
import requests
url = 'https://www.baidu.com'
try:
r = requests.get(url)
print(r.status_code) #HTTP请求的返回状态,200表示连接成功,404表示失败
r.raise_for_status() ##如果状态码返回不是200,抛出HTTPRError错误
r.encoding = r.apparent_encoding #防止乱码
print(r.text)
except:
print("爬取失败") #异常处理
r.encoding = r.apparent_encoding
其中r.encoding是从HTTP header中猜测的响应内容编码方式,而r.apparent_encoding是从内容中分析出的响应内容编码方式(备选编码方式)。
当要爬取某个视频或图片时以二进制的方式可以将其爬下来。
r.content是HTTP响应内容的二进制形式。