scrapy爬取漫画

本文介绍了一个使用scrapy爬取名为《一人之下》漫画的项目,包括设置代理IP,处理异步加载的JSON数据源,通过meta传递章节序号,自定义Pipeline以及如何在大型项目中实现暂停与唤醒爬虫的功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

项目提要

主要知识点

  • scrapy中设置代理IP
  • scrapy架构中从一个组件向另一组件传递特定信息,譬如本文所说的目录名
  • settings文件需要处理的事项
  • 大型项目的暂停与唤醒

爬虫目标
网上有一部漫画挺好看,手机浏览总是需要刷新浏览器——不友好啊,干脆我们把它爬取并存储到本地,即使以后收费了我们照样看。这部漫画叫《一人之下》
使用框架
scrapy

工作流程

  • 分析网页

在这里插入图片描述
我们可以看见从章节目录页爬取章节URL很容易,有点难度的是从具体章节爬取相应的图片
在这里插入图片描述
这里我们仔细看一下,页面是随着我们滚动鼠标而异步加载的,另外这里面有iframe——真是个糟糕的组合。
我们有两个解决方案:一是使用selenium来实现异步加载与虚拟鼠标滚动,听着就头大;二是找找json数据源。
在这里插入图片描述
可以发现随着鼠标滚动XHR列不断有新的异步会话出现,点一下——有JSON数据,OK了

  • 确定Item
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值