-
必要性: 爬虫在运行的过程中,很多时候都会遇到异常。如果没有异常处理,爬虫遇到异常时就会直接崩溃停止运行,要开发一个具有顽强生命力的爬虫,必须进行异常处理。
-
常见状态码及含义:
301 Moved Permanently: 重定向到新的URL,永久性 302 Fount: 重定向到新临时的URL,非永久性 304 Not Modified: 请求资源未更新 400 Bad Request: 非法请求 401 Unauthorized 请求未经授权 403 Forbidden: 禁止访问 404 Not Found : 没有找到对应页面 500 Internal Server Error: 服务器内部出错 501 Not Implmented: 服务器不支持实现请求所需的功能 -
URLError与HTTPError:
两者都是异常处理的类,HTTPError是URlError的子类,HTTPError有异常处理状态码与异常原因,URLError没有异常状态码,在处理的时候,不能直接使用URLError直接代替HTTPError。如果要代替,必须要判断是否有状态码属性UELError出现大的原因(HTTPError无法做到):
(1) 连不上服务器 (2) 远程URL不存在 (3) 无网络 (4) 触发了HTTPError
爬虫异常处理(状态码、常见错误)
最新推荐文章于 2023-07-02 00:50:50 发布
了解爬虫运行中常见的异常,如301、302、404等状态码的含义,掌握URLError与HTTPError的区别及处理方法,确保爬虫稳定运行。
8365

被折叠的 条评论
为什么被折叠?



