背景
博主打算利用scrapy框架进行豆瓣TOP250的全站爬取。结果由于连续运行多次,被网站识别出来了,就有了下面这个图片:(只要不登录,怎么刷新都是这个页面)
关于IP被封
第一反应,大家一定会想登录后就没事了。确实,但那只针对基于selenium框架的网页爬取,对于scrapy框架就没什么效果了。
IP是英文Internet Protocol的缩写,意思是网络之间互连的协议,也就是为计算机网络相互连接进行通信而设计的协议。
每个设备都有属于自己的独特IP,所以,直接换个网连,就万事大吉了。
最便利的方法就是利用手机热点(假如你之前连接的是家里的WIFI),网站检测到新的IP,自然不会不分青红皂白的把你这个新IP封了。
如果这个又封了怎么办?
用别人的手机热点继续!!
(仅针对爬虫练习,大型项目还是需要IP池的,总不能一个一个手动更换)
总结
通常情况下,有一个备用IP就可以完成你的爬虫练习(忽略需要IP池的大型项目)。
当你的IP第一次被封,就一定要考虑加个延迟,scrapy中就开启延迟就可以了。这样基本就可以保证爬虫不会被检测到了。