从入门到精通：Python中requests.Session()的6个你必须知道的秘密用法

原创于 2025-10-21 15:04:15 发布 · 326 阅读

CC 4.0 BY-SA版权

第一章：Python爬虫中会话保持的基本概念

在编写网络爬虫时，许多网站需要维持用户登录状态或跟踪用户的操作流程。此时，单纯的HTTP请求无法满足需求，必须通过会话（Session）机制来保持状态。Python的requests库提供了Session对象，用于跨请求持久化Cookie、HTTP头等信息。

会话保持的作用

自动管理Cookie，实现登录态的持续传递
复用TCP连接，提升多次请求的性能
统一设置请求头、认证信息等公共参数

使用requests.Session进行会话管理

# 创建一个Session对象
import requests

session = requests.Session()

# 设置通用请求头
session.headers.update({'User-Agent': 'Mozilla/5.0'})

# 发起登录请求，自动保存返回的Cookie
login_url = 'https://example.com/login'
login_data = {'username': 'user', 'password': 'pass'}
response = session.post(login_url, data=login_data)

# 后续请求将自动携带登录后获得的Cookie
profile_url = 'https://example.com/profile'
profile_response = session.get(profile_url)

print(profile_response.text)  # 输出个人主页内容

上述代码中，session.post()执行登录操作，服务器返回的Set-Cookie头会被自动存储。后续调用session.get()时，这些Cookie会随请求一起发送，从而模拟了浏览器的连续操作行为。

会话数据持久化的对比

特性	普通请求	Session对象
Cookie管理	需手动提取与附加	自动处理
连接复用	每次新建连接	支持连接池复用
代码可维护性	低	高

graph TD A[发起登录请求] --> B{是否创建Session?} B -->|是| C[Session自动保存Cookie] B -->|否| D[手动管理Cookie] C --> E[后续请求自动携带状态] D --> F[每次请求需重新设置]

第二章：requests.Session()的核心机制解析

2.1 理解HTTP无状态特性与会话的必要性

HTTP是一种无状态协议，意味着每次请求都是独立的，服务器不会保留前一次请求的上下文信息。这种设计提升了可扩展性和响应效率，但在需要用户持续交互的场景中带来了挑战。

无状态带来的问题

例如，用户登录后访问多个页面，服务器无法自动识别其身份。为解决此问题，必须引入会话机制来维护状态。

会话管理的核心方案

常见的实现方式包括Cookie与Session结合：

服务器在用户首次登录后创建Session，并生成唯一Session ID
通过Set-Cookie头将Session ID发送至客户端
后续请求携带Cookie，服务器据此查找对应Session数据

HTTP/1.1 200 OK
Set-Cookie: sessionId=abc123; Path=/; HttpOnly

该响应头指示浏览器存储名为sessionId的Cookie，值为abc123，后续请求将自动附加此凭证。

图示：客户端与服务器通过Cookie维持会话状态

2.2 Session对象如何自动管理Cookies

在HTTP会话管理中，Session对象通过与Cookies的协同工作实现状态保持。服务器创建Session后，会将唯一的Session ID通过Set-Cookie响应头发送给客户端。

自动同步机制

客户端后续请求自动携带该Cookie，服务端据此识别用户会话。以Python Requests库为例：

import requests

session = requests.Session()
response = session.get("https://httpbin.org/cookies/set/session_id/12345")
print(session.cookies.get_dict())

上述代码中，requests.Session() 实例自动捕获并存储来自响应的Cookies。后续请求无需手动附加Cookie，会自动包含已保存的信息。

内部存储结构

Session维护一个Cookie Jar，按域名和路径组织Cookie，确保安全性与隔离性。这种机制简化了开发者对认证、登录状态等场景的处理逻辑。

2.3 对比Session与普通requests请求的性能差异

在发起HTTP请求时，使用requests.Session()与直接调用requests.get()等方法存在显著性能差异。Session通过复用底层TCP连接和持久化Cookie、Headers等配置，显著减少重复开销。

连接复用机制

普通请求每次都会建立新连接，而Session自动启用Keep-Alive，实现连接池复用：

import requests

# 普通请求：每次独立连接
for url in urls:
    requests.get(url)

# Session请求：复用同一连接
session = requests.Session()
for url in urls:
    session.get(url)

上述代码中，Session避免了多次TCP握手和SSL协商，尤其在高频请求场景下性能提升明显。

性能对比数据

请求方式	请求数量	总耗时(s)	平均延迟(ms)
普通requests	100	12.4	124
Session	100	3.8	38

2.4 实战：使用Session模拟登录维护用户状态

在爬虫或自动化测试中，许多网站需要登录后才能访问受保护资源。使用 Session 可以自动管理 Cookie，从而维持用户登录状态。

Session 的基本用法

import requests

session = requests.Session()
# 登录请求
login_url = "https://example.com/login"
payload = {"username": "user", "password": "pass"}
response = session.post(login_url, data=payload)

上述代码创建一个持久会话，后续请求将自动携带服务器返回的 Cookie，实现状态保持。

模拟完整登录流程

构造登录表单数据，注意隐藏字段（如 csrf_token）
使用 Session 发起 POST 登录请求
利用同一 Session 访问其他需认证页面

# 访问受保护页面
profile_url = "https://example.com/profile"
resp = session.get(profile_url)
print(resp.text)  # 已登录状态下可获取个人资料

通过 Session 机制，多个请求间共享上下文，有效模拟真实用户行为。

2.5 深入源码：Session底层的适配器与连接池机制

在 ORM 框架中，Session 的核心职责是管理数据库会话状态与执行上下文。其底层依赖于**数据库适配器**和**连接池**两大组件。

适配器模式的应用

适配器负责封装不同数据库驱动的行为差异，统一接口调用。例如在 Go 的 GORM 中：

// 初始化 MySQL 适配器
db, err := gorm.Open(mysql.New(mysql.Config{
  Conn: dsn,
}), &gorm.Config{})

该代码通过 mysql.New 构建适配器实例，屏蔽了底层 driver.Conn 的具体实现。

连接池的工作机制

连接池由底层 SQL 包维护，可通过以下参数调优：

MaxOpenConns：最大并发打开连接数
MaxIdleConns：最大空闲连接数
ConnMaxLifetime：连接可复用的最大时间

这些参数直接影响高并发下的性能表现与资源占用。

第三章：会话中的Cookie高级操作

3.1 手动控制Cookie的添加与更新

在Web开发中，手动管理Cookie能实现更精细的状态控制。通过JavaScript的`document.cookie`接口，可直接操作Cookie的增删改查。

设置与更新Cookie

document.cookie = "username=john; path=/; max-age=3600; secure";

该代码设置名为`username`的Cookie，值为`john`。`path=/`表示根路径下可用；`max-age=3600`设定有效期为1小时；`secure`标志确保仅在HTTPS传输。

常见属性说明

expires：指定过期时间（GMT格式）
max-age：以秒为单位的生存周期
domain：指定可访问Cookie的域名
httpOnly：防止客户端脚本访问，增强安全性

每次赋值`document.cookie`不会覆盖已有Cookie，而是追加或更新同名项，因此需注意命名唯一性。

3.2 从浏览器导出Cookie并复用到爬虫中

在处理需要登录态的网站时，手动模拟登录流程往往复杂且易被反爬机制拦截。一种高效的方式是直接从浏览器导出已认证的 Cookie，并在爬虫中复用。

导出Cookie的常用方法

可通过浏览器插件（如 EditThisCookie、Cookie-Editor）导出当前页面的 Cookie 为 JSON 格式，或使用 Puppeteer 等工具自动化提取：


await page.evaluate(() => {
  return document.cookie.split(';').map(cookie => {
    const [name, value] = cookie.split('=');
    return { name: name.trim(), value };
  });
});

该代码通过 document.cookie 获取原始字符串，解析为结构化数组，便于后续传输。

在爬虫中注入Cookie

以 Python 的 requests 库为例：


import requests

cookies = {'sessionid': 'abc123', 'csrftoken': 'def456'}
response = requests.get('https://example.com/dashboard', cookies=cookies)

参数说明：将导出的键值对填入 cookies 字典，请求时自动携带认证信息，实现无缝会话复用。

3.3 实战：绕过简单反爬之Cookie签名验证

在某些网站中，服务器通过验证 Cookie 中的签名字段来识别请求合法性。攻击者若直接伪造请求，常因签名不匹配而被拦截。

常见签名机制分析

网站通常使用 HMAC-SHA256 等算法对部分 Cookie 字段进行签名，并将结果作为 `sign` 或 `_token` 字段传输。例如：

# 伪代码示例：服务端生成签名
import hmac
secret_key = b"my_secret"
cookie_data = "user_id=123&expire=1700000000"
signature = hmac.new(secret_key, cookie_data.encode(), "sha256").hexdigest()
# 最终 Cookie: user_id=123; expire=1700000000; sign=abc123...

上述代码中，`secret_key` 是关键，若可通过逆向 JS 或抓包推测出签名逻辑，则可构造合法 Cookie。

绕过策略

通过浏览器开发者工具分析登录后生成的 Cookie 签名规律
使用 Selenium 或 Puppeteer 自动化登录，提取有效 Cookie
逆向前端 JS 找到签名函数并用 Python 模拟实现

第四章：Session在复杂场景下的实战应用

4.1 多域名请求下的会话隔离与共享策略

在现代Web架构中，多个子域或完全不同的域名可能共属于同一业务体系，如何在保证安全的前提下实现会话的合理共享成为关键问题。

会话隔离的基本原则

默认情况下，浏览器基于同源策略隔离Cookie，不同域名无法读取彼此的会话信息。这有效防止了跨站攻击，但也阻碍了合法的跨域状态共享。

跨域会话共享方案

可通过设置Cookie的Domain属性实现子域间共享：

// 在主域设置会话Cookie
document.cookie = "sessionid=abc123; Domain=.example.com; Path=/; Secure; HttpOnly";

上述代码使得app.example.com与api.example.com均可访问该Cookie，实现会话共享。

安全性控制策略

严格校验Referer和CORS策略头
使用JWT替代传统Session ID，结合签名确保令牌完整性
对敏感操作增加二次验证机制

4.2 结合Session实现带身份验证的API批量调用

在需要频繁调用受保护API的场景中，使用Session机制可有效避免重复登录，提升调用效率并保障安全性。

Session认证流程

客户端首次请求时通过用户名密码获取会话凭证，后续请求复用该Session，服务端通过会话ID识别用户身份。

代码实现示例

import requests

# 创建会话对象
session = requests.Session()
login_data = {'username': 'admin', 'password': '123456'}

# 登录并维持会话
session.post('https://api.example.com/login', data=login_data)

# 批量调用API
for i in range(10):
    response = session.get(f'https://api.example.com/data/{i}')
    print(f'请求 {i}: 状态码 {response.status_code}')

上述代码中，requests.Session() 创建持久会话，自动管理Cookie。登录后所有请求共享认证状态，适合循环或并发调用。

优势与适用场景

减少重复认证开销
自动处理Cookie和重定向
适用于定时任务、数据同步等批量操作

4.3 高并发下Session的安全使用与线程安全问题

在高并发场景中，Session的线程安全问题尤为突出。多个请求可能同时访问同一用户的Session数据，若未正确同步，极易导致数据错乱或覆盖。

Session并发访问风险

常见的问题包括读写冲突、脏数据读取等。例如，在用户登录状态更新时，多个线程同时修改Session属性，可能造成部分更新丢失。

数据同步机制

可通过加锁机制保障线程安全。以下为Go语言示例：


var sessionMutex sync.RWMutex
sessionMutex.Lock()
session.Values["user"] = user
session.Save(req, resp)
sessionMutex.Unlock()

该代码使用sync.RWMutex对Session写操作加锁，确保同一时间仅一个协程可修改数据，读操作则可并发执行，提升性能。

4.4 实战：构建可持久化的会话池提升爬取效率

在高频率网络爬取场景中，频繁创建和销毁 HTTP 会话会显著增加开销。通过构建可持久化的会话池，复用连接资源，能有效减少 TCP 握手与 TLS 协商时间，大幅提升请求吞吐量。

核心实现思路

利用连接池管理预初始化的 Session 对象，结合最大空闲连接、超时回收等策略，确保资源高效复用。

import requests
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

def create_pooled_session():
    session = requests.Session()
    retry = Retry(total=3, backoff_factor=0.1)
    adapter = HTTPAdapter(pool_connections=10, pool_maxsize=20, max_retries=retry)
    session.mount('http://', adapter)
    session.mount('https://', adapter)
    return session

上述代码配置了最多 20 个并发连接，复用 10 个持久连接。HTTPAdapter 中的 pool_connections 控制预加载连接数，pool_maxsize 限制单个主机最大连接数，配合重试机制增强鲁棒性。

性能对比

策略	平均响应时间(ms)	QPS
普通会话	180	55
持久化会话池	65	150

第五章：总结与进阶学习建议

持续实践与项目驱动学习

真正的技术成长源于持续的实践。建议开发者每掌握一个新概念后，立即构建小型项目进行验证。例如，学习 Go 语言的并发模型后，可实现一个简单的爬虫调度器：


package main

import (
    "fmt"
    "sync"
    "time"
)

func fetch(url string, wg *sync.WaitGroup) {
    defer wg.Done()
    fmt.Printf("Fetching %s\n", url)
    time.Sleep(1 * time.Second) // 模拟网络请求
    fmt.Printf("Completed %s\n", url)
}

func main() {
    var wg sync.WaitGroup
    urls := []string{
        "https://example.com",
        "https://google.com",
        "https://github.com",
    }

    for _, url := range urls {
        wg.Add(1)
        go fetch(url, &wg)
    }
    wg.Wait()
}