首先在将ROBOTSTXT_OBEY设置成False之后运行爬虫进行测试,发现错误,错误码为500.
经检查发现是缺少User-Agent.
在setting中找到DEFAULT_REQUEST_HEADERS,添加上User-Agent.
再次运行爬虫,爬取成功。
然后进行个人主页爬取,再次发现错误,错误码为401
查询后发现是缺少请求头authorization,回到DEFAULT_REQUEST_HEADERS,加上authorization参数。
此时运行爬虫程序,爬取成功,爬取到json格式的文本。
本文介绍了如何解决爬虫遇到的500和401错误,通过添加User-Agent和authorization请求头,成功实现了网页和个人主页的数据抓取。
513





