Python爬虫基础教程（111）在爬虫中使用Cookies之带Cookies的爬虫：带Cookie爬虫：别再让网站把你当“陌生人”甩脸色！

最新推荐文章于 2025-11-24 15:28:47 发布

原创

最新推荐文章于 2025-11-24 15:28:47 发布 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

当你第N次看到“请登录后查看”的提示，而你的爬虫像个呆子一样反复撞墙时，是时候给这个铁憨憨喂点小饼干了

大家好，我是你们的码农段子手。今天我们要聊一个让无数爬虫新手血压升高的话题——Cookie。别看这英文名听着像小饼干，它在爬虫界可是堪比核武器的存在。上次我徒弟小陈就栽在这上头，他写的爬虫每次都被网站当成“初次见面的陌生人”，结果疯狂弹登录页面，气得他差点把键盘吃了。

先来说个真实案例。上周小陈兴奋地跟我说，他写了个爬某电商网站商品价格的脚本，代码逻辑完美，结果运行后返回的都是“请先登录”。他委屈巴巴地问我：“师父，我明明在浏览器里登录得好好的，为啥爬虫就不行呢？”

我问他：“你在餐厅办了会员卡，下次去吃饭会直接享受折扣吗？”

“当然啊！”

“那如果你换件衣服，戴个墨镜去呢？”

“呃…他们可能就不认识我了。”

Exactly！ 网站就是通过Cookie这张“会员卡”来记住你的。浏览器吃饭时带着会员卡（自动携带Cookie），而你的爬虫像个失忆患者，每次都是“初次见面”，网站当然让你先登录。

想象一下这个场景：你去一家经常光顾的咖啡馆，店员一看是你，直接问：“老规矩，还是美式加冰？” Cookie就是那个能让店员认出你的神奇玩意儿。

在技术层面，Cookie是服务器发送到用户浏览器并保存在本地的一小块数据。浏览器下次向同一服务器再发起请求时，会携带这个Cookie。包含什么信息呢？通常是：

没有Cookie的爬虫，就像失忆的特工——每次都要重新自我介绍，效率低到令人发指。

对于初学者，手动获取Cookie是最直观的方式。来，手把手教学：

import requests

def simple_cookie_spider():
    # 这里是你的目标URL
    url = "https://www.zhihu.com/people/xxx"
    
    # 手动复制的Co