Python爬虫基础教程（109）Python爬虫与反爬虫之在爬虫中使用Cookies：饼干大盗的自我修养：当Python爬虫学会了“偷吃”Cookie

最新推荐文章于 2025-11-24 15:28:47 发布

原创

最新推荐文章于 2025-11-24 15:28:47 发布 · 1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #c++

还记得你第一次被网站拦在外面的尴尬吗？就像个被保安盯上的可疑分子，刚想伸手拿点数据，就跳出个“请登录”或者更狠的验证码——那一刻，你的爬虫就像没买票就想进演唱会现场的狂热粉丝，被无情地拒之门外。

别慌，这时候就该请出我们今天的主角：Cookie，也就是我们常说的“饼干”。不过这块“饼干”可不是用来吃的，它是爬虫世界的通行证、会员卡，甚至是你的数字身份证。

1. Cookie是什么？爬虫界的“免死金牌”

简单来说，Cookie就是网站为了记住你而放在你浏览器里的小纸条。比如你登录了某个网站，它就会在你的浏览器里放一块“饼干”，上面写着“这人已经登录了，下次他来的时候直接放行”。

没有Cookie的爬虫，就像个失忆症患者，每次访问网站都像是第一次见面。而有了Cookie，爬虫就能伪装成已经登录的熟客，大摇大摆地获取那些需要登录才能看到的内容。

举个栗子：
想象一下，你去常去的咖啡馆，第一次去的时候办了会员卡（注册登录），之后每次出示会员卡（Cookie），店员就知道你是老顾客，直接给你预留了最喜欢的座位（访问权限）。爬虫带着Cookie访问网站，就跟这个道理一模一样。

2. 获取Cookie：三种“偷师”大法

方法一：手动复制——最笨但最有效
新手最爱，就像小时候抄作业一样直接：

用浏览器登录目标网站
按F12打开开发者工具
找到Network标签，刷新页面
点击任意请求，在Request Headers里找到Cookie那一长串天书
全选，复制，粘贴到你的代码里

虽然看起来很low，但对于偶尔爬一下的小项目，这招简单粗暴有效。

方法二：自动登录——做个有礼貌的爬虫
让爬虫自己完成登录流程，就像教它自己学会泡咖啡：

import requests

# 创建会话，让Cookie能够持久化
session = requests.Session()

# 登录信息
login_data = {
    'username': '你的账号',
    'password': '你的密码'
}

# 发送登录请求
login_url = 'https://example.com/login'
response = session.post(login_url,