项目提要
主要知识点
- scrapy中设置代理IP
- scrapy架构中从一个组件向另一组件传递特定信息,譬如本文所说的目录名
- settings文件需要处理的事项
- 大型项目的暂停与唤醒
爬虫目标
网上有一部漫画挺好看,手机浏览总是需要刷新浏览器——不友好啊,干脆我们把它爬取并存储到本地,即使以后收费了我们照样看。这部漫画叫《一人之下》
使用框架
scrapy
工作流程
- 分析网页
我们可以看见从章节目录页爬取章节URL很容易,有点难度的是从具体章节爬取相应的图片
这里我们仔细看一下,页面是随着我们滚动鼠标而异步加载的,另外这里面有iframe——真是个糟糕的组合。
我们有两个解决方案:一是使用selenium来实现异步加载与虚拟鼠标滚动,听着就头大;二是找找json数据源。
可以发现随着鼠标滚动XHR列不断有新的异步会话出现,点一下——有JSON数据,OK了
- 确定Item