本文出自微信公众号【Python三剑客】
作者:阿K
阅读时长:5min
引言
谈到Cookie池这是爬虫面试必不可少的问题之一,今天为大家分享一下如何构建一个完整和健壮的CookiePool
【为什么要登录账号】
-
由于现在爬虫技术的普及很多网站都通过登录账号来限制爬虫的抓取,甚至乎有些网站只有登录了才能看到数据
-
一些页面和接口虽然可以直接请求,但是请求一旦频繁,访问就容易被限制或者IP直接被封,但是登录之后就不会出现这样的问题,因此登录之后被反爬的可能性更低。登录账号可以降低被封禁的概率。
【为什么要搭建CookiePool】
-
如果需要做大规模抓取,我们就需要拥有很多账号,每次请求随机选取一个账号,这样就降低了单个账号的访问频率,被封的概率又会大大降低。
-
与IP代理池不同,Cookies池具有针对性,如果你爬微博就要构建一个微博cookies池,爬知乎就需要构建一个知乎cookies池;而IP代理池是通用的,可供不同的爬虫任务共同使用。
相对而言CookiePool的反爬是第一阶段的,根据阿K的爬虫经验一个完整的反爬流程可以分为以下步骤