手把手教你解决Python爬虫403错误：从入门到放弃再到成功（不是）

最新推荐文章于 2025-05-19 11:24:32 发布

golfscript

最新推荐文章于 2025-05-19 11:24:32 发布

阅读量659

点赞数 25

CC 4.0 BY-SA版权

文章标签： python 爬虫开发语言其他

本文链接：https://blog.youkuaiyun.com/golfscript/article/details/148059092

文章目录

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
（假装这里有张示意图，你懂的）

当你的爬虫突然被拒之门外时…

“昨天还能跑得好好的爬虫，今天怎么就403了？！” —— 这几乎是每个爬虫工程师的必经之路。今天我们就来好好聊聊这个磨人的小妖精，保证你看完就能把403按在地上摩擦！

先来认识下这个磨人的错误

urllib.error.HTTPError: HTTP Error 403: Forbidden

这个报错翻译成人话就是：“服务器知道你想干啥，但就是不让你干！”（傲娇脸.jpg）

为什么受伤的总是我？（常见原因分析）

User-Agent太假（服务器一眼看穿你是爬虫）
访问频率过高（你刷屏的样子像极了渣男）
需要登录/Cookie（进女神的房间怎么能不敲门？）
IP被拉黑（恭喜你成功引起了服务器的注意）
Referer校验（就像进商场非要你出示购物小票）

七种武器：手把手教你突破防线

第一式：伪装大法之User-Agent

# 使用requests库的优雅姿势
import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

response = requests.get(url, headers=headers)

# 传统urllib的打开方式
from urllib.request import Request, urlopen

req = Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.1 Safari/605.1.15')
response = urlopen(req)

重点提醒：User-Agent要定期更新！别用那些上古版本的浏览器标识（说的就是还在用Chrome 49的你）

第二式：时间管理大师（延迟设置）

import time
import random

for page in range(1, 100):
    # 随机等待1-3秒
    time.sleep(random.uniform(1, 3)) 
    # 发送请求...

血的教训：我曾经因为没加延迟，1秒请求200次，结果IP被封了3天…（别问，问就是泪）

第三式：代理IP轮换术

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080',
}

response = requests.get(url, proxies=proxies)

注意：免费代理就像爱情，来得快去得也快。建议用付费代理服务（这不是广告！）

第四式：Cookie大法好

# 先手动登录获取cookie
import requests

session = requests.Session()
login_data = {
    'username': 'your_username',
    'password': 'your_password'
}
session.post(login_url, data=login_data)

# 使用带cookie的session访问
response = session.get(target_url)

高级技巧：用浏览器开发者工具抓取Cookie（F12 -> Network -> 找登录请求）

第五式：Referer障眼法

headers = {
    'Referer': 'https://www.google.com/',
    # 假装是从谷歌搜索过来的
}
response = requests.get(url, headers=headers)

冷知识：有些网站会检查Referer来防盗链，这时候就需要你"伪造来源"

第六式：终极头文件全家桶

headers = {
    'User-Agent': '...',
    'Accept-Language': 'en-US,en;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1'
}
# 把headers塞得满满的，让服务器觉得你是正经浏览器

第七式：降维打击之Selenium

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('--disable-blink-features=AutomationControlled')

driver = webdriver.Chrome(options=options)
driver.get(url)
# 享受真人操作般的流畅体验

适合场景：反爬措施变态级的网站（说的就是某宝某东）

常见翻车现场Q&A

Q：我明明加了User-Agent为什么还是403？
A：可能遇到以下情况：

需要登录认证
IP被拉黑（赶紧换IP！）
需要验证码（准备好打码平台吧）

Q：用代理IP还是被ban怎么办？
A：试试这些组合拳：

代理IP + 随机延迟
更换User-Agent
使用无头浏览器

Q：有没有一劳永逸的方法？
A：醒醒！反爬和反反爬是永恒的猫鼠游戏（点烟.jpg）

防翻车小贴士

尊重robots.txt（做个有道德的爬虫工程师）
控制请求频率（别把人家服务器搞崩了）
设置超时时间（推荐5-10秒）
异常处理要完善（try-except是你的好朋友）
定期更新策略（反爬措施会升级！）

# 标准异常处理模板
try:
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()
except requests.exceptions.HTTPError as errh:
    print(f"HTTP Error: {errh}")
except requests.exceptions.ConnectionError as errc:
    print(f"Connection Error: {errc}")
except requests.exceptions.Timeout as errt:
    print(f"Timeout Error: {errt}")
except requests.exceptions.RequestException as err:
    print(f"Oops! Something wrong: {err}")