爬虫的概念
爬虫流程
- url —> 发送请求,获取响应 —> 提取数据 —> 保存
- 发送请求,获取响应 —> 提取url
爬虫要根据当前url地址对应的响应为准,当前url地址的elements的内容和url的响应不一样
页面上的数据在哪里
- 当前url地址对应的响应中
- 其他的url地址对应的响应中
- js生成的
str bytes 如何转化
- str使用encode方法转化为bytes
- bytes通过decode方法转化为str
- 编码方式解码方式必须一样,否则会出现乱码
requests模块
import requests
response = requests.get('http://www.baidu.com')
response.text
response.encoding
response.encoding = 'utf-8'
response.content
response.content.decode()
requests中解决编码解码的方法
- response.content.decode()
- response.content.decode(“gbk”)
- response.text
保存文件的内容
- 1.获取内容数据–二进制
- 2.使用wb的方式保存就可以了,需要改保存文件的后缀名
获取的内容
- 获取状态码
- 获取内容
- response.text
- response.content
- 获取响应头
- 获取请求头
- url 地址
- response.request.url 请求的url地址
- response.url 响应的url地址
判断请求是否成功
assert reponse.statue_code==200
url 编码
https://www.baidu.com/s?wd=%E4%BC%A0%E6%99%BA%E6%92%AD%E5%AE%A2