一招搞定HTTP 403错误！程序员的自我修养之反爬虫大战

文章目录

1. 当你在代码里突然看到403…

“WTF？我的爬虫昨天还好好的！”（是不是你的真实写照？）当urllib.error.HTTPError: HTTP Error 403: Forbidden这个红字突然出现在控制台时，相信很多小伙伴的血压瞬间就上来了。别急！今天咱们就手把手拆解这个磨人的小妖精！

2. 为什么服务器要拒绝你？

2.1 服务器防火墙在搞事情

现在的网站都跟刺猬似的（特别是大厂网站），防火墙配置得那叫一个严实！像Cloudflare这种专业选手，分分钟就能把你的请求按在地上摩擦。

2.2 User-Agent暴露身份

用默认的Python User-Agent？恭喜你成功触发反爬机制！（就像穿着睡衣去参加高端酒会，保安不拦你拦谁？）

3. 实战解决方案大礼包

3.1 伪装大法（重点！）

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Referer': 'https://www.google.com/',
    'Accept-Language': 'en-US,en;q=0.9'
}
req = Request(url, headers=headers)

敲黑板！！这里要配置至少5个常用header字段，像不像给请求穿上定制西装？（亲测有效度★★★★☆）

3.2 IP轮换策略

家里有矿的可以用付费代理池，咱们打工人就用免费方案：

proxies = {
    'http': 'http://10.10.1.10:3128',
    'https': 'http://10.10.1.10:1080',
}
response = requests.get(url, proxies=proxies)

注意！！免费代理存活时间可能只有几分钟（别问我怎么知道的T_T）

3.3 请求间隔控制

别像个饿死鬼一样狂发请求！加个随机延时保平安：

import random
import time

time.sleep(random.uniform(1, 3))  # 随机等待1-3秒

（这个操作能让你的请求看起来更像人类！）

4. 进阶操作手册

4.1 模拟浏览器环境

上大招！用selenium伪装成真实浏览器：

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument("--headless")  # 无头模式
driver = Chrome(options=options)
driver.get(url)

（适合反爬严密的网站，但吃内存大户警告！）

4.2 验证码自动识别

遇到验证码别慌！接打码平台：

# 以超级鹰为例
def crack_captcha(img_path):
    chaojiying = Chaojiying_Client(username, password, soft_id)
    return chaojiying.PostPic(open(img_path, 'rb').read(), 1902)