Python问题-requests库爬虫报403

本文分享了在遇到服务器拒绝爬虫访问时的一种解决方法——通过增加headers来模拟浏览器访问,以此绕过服务器的限制。此外,还提及了作者计划自行编写爬虫以抓取在线医疗咨询平台的数据,用于辅助理解和学习病理知识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一:一般的requests库

def gethtmltext(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:

之前爬爬taobao.com都是管用的,但这次就异常了。

把 r 输出,报【403】,也就是说服务器拒绝访问了。

也就是说服务器不允许一些客服端的访问,毕竟他们的robots协议也是这么说的:


这种情况下,应该让爬虫模拟成一个浏览器的方式访问就不会被发现啦。

二:增加headers,模拟浏览器访问

即:

def getHtmlList(url):
    try:
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                        'Chrome/51.0.2704.63 Safari/537.36'}
        r = requests.get(url, headers = headers, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:

解决了。


**因为上周末医院的不爽之旅,第一次体会到医生与患者间高度信息不对等,也开始理解总会爆发的医患关系。

当然我还是尊重医生的,只是觉的后面跟医生交流时,应该增加自己对病理的了解,提高与医生交流时信息平等。**

**爬虫小白准备自己写一段爬取在线医疗咨询平台患者咨询案例,用于辅助对病理的理解。**

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值