代码编写心路历程:
第一步:正常方式粗暴获取
from urllib import request
url = "https://piaofang.maoyan.com/dashboard?date=2019-07-26"
rq = request.urlopen(url)
print(rq.read())
问题:返回错误urllib.error.HTTPError: HTTP Error 403: Forbidden
HTTP Error 403:服务器接收到了客户的请求,但拒绝处理它。
问题原因:服务器的反爬虫机制,认定该次访问为爬虫行为,拒绝返回数据。
怎么处理:对访问行为进行伪装,添加请求头headers。

本文详细记录了使用urllib.request模块爬取猫眼票房数据的过程,从遇到的403错误开始,逐步解决通过添加请求头、更换URL至数据源地址,最后对字节数据进行转码,成功获取并解析所需信息。
最低0.47元/天 解锁文章
7675

被折叠的 条评论
为什么被折叠?



