【爬虫】403 Forbidden报错的解决办法

最新推荐文章于 2025-05-19 10:56:10 发布

原创最新推荐文章于 2025-05-19 10:56:10 发布 · 1.1w 阅读

11 ·

CC 4.0 BY-SA版权

数据采集专栏收录该内容

1 篇文章

订阅专栏

本文探讨了HTTP状态码403错误的原因，通常是因为服务器禁止访问。特别关注了User-Agent字段的作用，以及如何使用Python和requests库来修改User-Agent，使其更接近真实用户的浏览器，如Chrome，以避免被网站拒绝。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

查询HTTP状态码可以看到403是服务器禁止访问，可能原因有：

User-Agent字段
其它情况，可以留言或评论，本文后续补充

User-Agent字段

若用Python做爬虫，默认User-Agent字段是python urllib/3.3.0，这样的User-Agent一般网站都会拒绝访问的。
为了让自己的爬虫更像一个真实用户，我们可以将User-Agent伪装成一些流行的浏览器，如：Chrome浏览器、火狐浏览器等等。

【tips】那么怎么知道Chrome浏览器的User-Agent是什么呢？
一方面可以上网搜，另一方面也可以通过Chrome、火狐浏览器的开发者工具查看。
例如笔者Chrome浏览器的User-Agent是Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36

【tips】如何在Python代码中指定User-Agent呢？
我们可以借助requests库修改HTTP请求头，下面的代码结合requests和BeautifulSoup进行爬虫。

import requests
from bs4 import BeautifulSoup

session = requests.Session()
headers = {
   "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit 537.36 (KHTML, like Gecko) Chrome"
}
req = session.get("http://www.xxxxxx.com", headers=headers)
bsObj = BeautifulSoup(req.text)