手法
1. 考虑到要更换 ip 池:主程序每12分钟后终止一次,更新一次ip池
2. 航班过零点,考虑到每条更新完整度,让写入数据库时间比实际小 1.8h ,0.2h 写入当天数据
3. 在凌晨2-6之间代码不工作
4. 代理ip 请求失败超过50次时,用本机请求
5. 每隔一段时间新增一批代理ip,并将请求失败的代理ip删除
6. 考虑代码的迁移性,数据库打开后正常关闭
7. 对爬取数据的正确性进行检验(type,个数等)
spider 经验
最新推荐文章于 2024-08-21 08:52:21 发布