在网页爬取的时候,有时候需要判断下要爬取网页的网页HTTP状态码,然后再进行相关的工作。
1.网页HTTP状态码
HTTP状态码表示HTTP协议所返回的响应状态。具体参考:http://baike.baidu.com/view/1790469.htm?fr=aladdin
HTTP状态码有5种,所有状态码的第一个数字代表了响应的5种状态之一:(1)消息:1XX;(2)成功:2XX;(3)重定向:3XX;(4)请求错误:4XX;(5)服务器错误:5XX.
我目前常用的就两种:
(1)200:请求成功,请求所希望的响应头或者数据体随此响应返回。

在网页爬取中,判断HTTP状态码至关重要。本文介绍了HTTP状态码的含义,如200表示成功,404表示未找到。并分享了使用Python的requests和urllib库获取HTTP状态码的方法,包括异常处理技巧。
最低0.47元/天 解锁文章
1145

被折叠的 条评论
为什么被折叠?



