爬虫基础和requests模块

最新推荐文章于 2025-05-30 20:08:10 发布

原创最新推荐文章于 2025-05-30 20:08:10 发布 · 515 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python

爬虫专栏收录该内容

10 篇文章

订阅专栏

爬虫概述

模拟浏览器，发送请求，获取响应

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

分类

在这里插入图片描述

流程

在这里插入图片描述

获取一个url
向url发送请求，并获取响应（需要http协议）
如果从响应中提取url，则继续发送请求获取响应
如果从响应中提取数据，则将数据进行保存

http协议复习

在这里插入图片描述

http以及https的概念和区别

HTTPS比HTTP更安全，但是性能更低

HTTP：超文本传输协议，默认端口号是80
HTTPS：HTTP + SSL(安全套接字层)，即带有安全套接字层的超本文传输协，默认端口号：443
- SSL对传输的内容（超文本，也就是请求体或响应体）进行加密

爬虫特别关注的请求头和响应头

特别关注的请求头字段

http请求的形式：
在这里插入图片描述

Content-Type
Host (主机和端口号)
Connection (链接类型)
Upgrade-Insecure-Requests (升级为HTTPS请求)
User-Agent (浏览器名称)
Referer (页面跳转处)
Cookie (Cookie)
Authorization(用于表示HTTP协议中需要认证资源的认证信息，如前边web课程中用于jwt认证)

特别关注的响应头字段

http响应的形式
在这里插入图片描述
爬虫只关注一个响应头字段

Set-Cookie （对方服务器设置cookie到用户浏览器的缓存）

常见的响应状态码

在这里插入图片描述

所有的状态码都不可信，一切以是否从抓包得到的响应中获取到数据为准

浏览器的运行过程

在这里插入图片描述
http请求的过程

浏览器在拿到域名对应的ip后，先向地址栏中的url发起请求，并获取响应
在返回的响应内容（html）中，会带有css、js、图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序依次发送其他的请求，并获取相应的响应
浏览器每获取一个响应就对展示出的结果进行添加（加载），js，css等内容会修改页面的内容，js也可以重新发送请求，获取响应
从获取第一个响应并在浏览器中展示，直到最终获取全部响应，并在展示的结果中添加内容或修改————浏览器的渲染

注意：

浏览器最终展示的结果是由多个url地址分别发送的多次请求对应的多次响应共同渲染的结果
在爬虫中，需要以发送请求的一个url地址对应的响应为准来进行数据的提取

浏览器展示的结果可以由多次请求对应的多次响应共同渲染出来，而爬虫是一次请求对应一个响应

requests模块

requests文档

作用：发送http请求，获取响应数据
安装：pip/pip3 install requests

requests模块发送get请求

需求：通过requests向百度首页发送请求，获取该页面的源码

# 1.2.1-简单的代码实现
import requests 

# 目标url
url = 'https://www.baidu.com' 

# 向目标url发送get请求
response = requests.get(url)

# 打印响应内容
print(response.text)

response响应对象

编解码使用的字符集不同早造成乱码；

# 1.2.2-response.content
import requests 
# 目标url
url = 'https://www.baidu.com' 
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
# print(response.text)
print(response.content.decode()) # 注意这里！

response.text是requests模块按照charset模块推测出的编码字符集进行解码的结果
网络传输的字符串都是bytes类型的，所以response.text = response.content.decode(‘推测出的编码字符集’)
可以在网页源码中搜索charset，尝试参考该编码字符集，注意存在不准确的情况

response.text 和response.content

response.text
- 类型：str
- 解码类型： requests模块自动根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码
response.content
- 类型：bytes
- 解码类型：没有指定

解决中文乱码

response.content.decode() 默认utf-8
response.content.decode(“GBK”)
常见的编码字符集
- utf-8
- gbk
- gb2312
  ascii （读音：阿斯克码）
- iso-8859-1

常用属性或方法

在这里插入图片描述

requests模块发送请求

发送带header的请求

问题：代码中的百度首页的源码非常少？

需要我们带上请求头信息
回顾爬虫的概念，模拟浏览器，欺骗服务器，获取和浏览器一致的内容
请求头中有很多字段，其中User-Agent字段必不可少，表示客户端的操作系统以及浏览器的信息

携带请求头发送请求的方法

方法：requests.get(url, headers=headers)
headers参数接收字典形式的请求头
请求头字段名作为key，字段对应的值作为value

import requests
url = 'https://www.baidu.com'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 在请求头中带上User-Agent，模拟浏览器发送请求
response = requests.get(url, headers=headers) 

print(response.content)

# 打印请求头信息
print(response.request.headers)

发送带参数的请求

查询字符串

在url携带参数

url = 'https://www.baidu.com/s?wd=python'

通过params携带参数字典

import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 这是目标url
# url = 'https://www.baidu.com/s?wd=python'

# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?'

# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'}

# 带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw)

print(response.content)

headers参数中携带cookie

在这里插入图片描述

从浏览器中复制User-Agent和Cookie
浏览器中的请求头字段和值与headers参数中必须一致
headers请求参数字典中的Cookie键对应的值是字符串

import requests
url = 'https://github.com/USER_NAME'
# 构造请求头字典
headers = {
    # 从浏览器中复制过来的User-Agent
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',
    # 从浏览器中复制过来的Cookie
    'Cookie': 'xxx这里是复制过来的cookie字符串'
}
# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers)
print(resp.text)

成功利用headers参数携带cookie，获取登陆后才能访问的页面

cookies参数的使用

cookies参数的形式：字典
cookies = {“cookie的name”:“cookie的value”}
- 该字典对应请求头中Cookie字符串，以分号、空格分割每一对字典键值对
- 等号左边的是一个cookie的name，对应cookies字典的key
- 等号右边对应cookies字典的value
cookies参数的使用方法
response = requests.get(url, cookies)
将cookie字符串转换为cookies参数所需的字典：
cookies_dict = {cookie.split(’=’)[0]:cookie.split(’=’)[-1] for cookie in cookies_str.split(’; ')}
注意：cookie一般是有过期时间的，一旦过期需要重新获取

import requests
url = 'https://github.com/USER_NAME'
# 构造请求头字典
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}
# 构造cookies字典
cookies_str = '从浏览器中copy过来的cookies字符串'
cookies_dict = {cookie.split('=')[0]:cookie.split('=')[-1] for cookie in cookies_str.split('; ')}

# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=cookies_dict)

print(resp.text)

cookieJar对象转换为cookies字典的方法

使用requests获取的resposne对象，具有cookies属性。该属性值是一个cookieJar类型，包含了对方服务器设置在本地的cookie。

转换方法
cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)
其中response.cookies返回的就是cookieJar类型的对象
requests.utils.dict_from_cookiejar函数返回cookies字典

超时参数timeout的使用

遇到网络波动，在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错。

超时参数timeout的使用方法
response = requests.get(url, timeout=3)
timeout=3表示：发送请求后，3秒钟内返回响应，否则就抛出异常

import requests
url = 'https://twitter.com'
response = requests.get(url, timeout=3)     # 设置超时时间

代理&proxy代理参数的使用-

代理过程
在这里插入图片描述
正向代理和反向代理的区别

代理ip分类

proxies代理参数的使用

为了防止频繁向一个域名发送请求被封ip，所以需要使用代理ip

用法：
response = requests.get(url, proxies=proxies)
proxies的形式：字典
例如：
proxies = {
“http”: “http://12.34.56.79:9527”,
“https”: “https://12.34.56.79:9527”,
}
注意：如果proxies字典中包含有多个键值对，发送请求时将按照url地址的协议来选择使用相应的代理ip

使用verify参数忽略CA证书

在这里插入图片描述
原因：该网站的CA证书没有经过【受信任的根证书颁发机构】的认证

解决方案：为了在代码中能够正常的请求，使用verify=False参数，此时requests模块发送请求将不做CA证书的验证：verify参数能够忽略CA证书的认证

import requests
url = "https://sam.huat.edu.cn:8443/selfservice/" 
response = requests.get(url,verify=False)

requests模块发送post请求

登录注册（在web工程师看来POST 比 GET 更安全，url地址中不会暴露用户的账号密码等信息）
需要传输大文本内容的时候（ POST 请求对数据长度没有要求）

requests发送post请求的方法

response = requests.post(url, data)
data参数接收一个字典
requests模块发送post请求函数的其它参数和发送get请求的参数完全一致

POST请求练习

在这里插入图片描述

import requests
import json

class King(object):
    def __init__(self, word):
        self.url = "http://fy.iciba.com/ajax.php?a=fy"
        self.word = word
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
        }
        self.post_data = {
            "f": "auto",
            "t": "auto",
            "w": self.word
        }

    def get_data(self):
        response = requests.post(self.url, headers=self.headers, data=self.post_data)
        # 默认返回bytes类型，除非确定外部调用使用str才进行解码操作
        return response.content

    def parse_data(self, data):

        # 将json数据转换成python字典
        dict_data = json.loads(data)

        # 从字典中抽取翻译结果
        try:
            print(dict_data['content']['out'])
        except:
            print(dict_data['content']['word_mean'][0])

    def run(self):
        # url
        # headers
        # post——data
        # 发送请求
        data = self.get_data()
        # 解析
        self.parse_data(data)

if __name__ == '__main__':
    # king = King("人生苦短，及时行乐")
    king = King("China")
    king.run()
    # python标准库有很多有用的方法，每天看一个标准库的使用

requests.session状态保持

requests模块中的Session类能够自动处理发送请求获取响应过程中产生的cookie，进而达到状态保持的目的。

requests.session的作用以及应用场景

requests.session的作用
- 自动处理cookie，即下一次请求会带上前一次的cookie
requests.session的应用场景
- 自动处理连续的多次请求过程中产生的cookie

session实例在请求了一个网站后，对方服务器设置在本地的cookie会保存在session中，下一次再使用session请求对方服务器的时候，会带上前一次的cookie

session = requests.session() # 实例化session对象
response = session.get(url, headers, ...)
response = session.post(url, data, ...)

session对象发送get或post请求的参数，与requests模块发送请求的参数完全一致

练习

使用requests.session来完成github登陆，并获取需要登陆后才能访问的页面

过程

对github登陆以及访问登陆后才能访问的页面的整个完成过程进行抓包
确定登陆请求的url地址、请求方法和所需的请求参数
- 部分请求参数在别的url对应的响应内容中，可以使用re模块获取
确定登陆后才能访问的页面的的url地址和请求方法
利用requests.session完成代码

import requests
import re


# 构造请求头字典
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',
}

# 实例化session对象
session = requests.session()

# 访问登陆页获取登陆请求所需参数
response = session.get('https://github.com/login', headers=headers)
authenticity_token = re.search('name="authenticity_token" value="(.*?)" />', response.text).group(1) # 使用正则获取登陆请求所需参数

# 构造登陆请求参数字典
data = {
    'commit': 'Sign in', # 固定值
    'utf8': '✓', # 固定值
    'authenticity_token': authenticity_token, # 该参数在登陆页的响应内容中
    'login': input('输入github账号：'),
    'password': input('输入github账号：')
}

# 发送登陆请求（无需关注本次请求的响应）
session.post('https://github.com/session', headers=headers, data=data)

# 打印需要登陆后才能访问的页面
response = session.get('https://github.com/1596930226', headers=headers)
print(response.text)