基于scrapy 的360图片爬取 item中图片存储多个链接并下载

本文介绍如何使用Scrapy爬取360图片库中的cosplay图片,重点在于处理动态加载的URL规律分析。通过观察xhr请求,发现图片URL的构造规则,并探讨如何从多个数据源抓取图片链接,最终实现完整图片集的下载。文章涉及的文件包括items.py、settings.py、pipelines.py和begin.py。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

对于scrapy我还是没有感觉到他的强大 怪我太菜 仍然感觉requests好用

本片基于360图片的爬取 并对深度的爬取 不爬取封面 太lower了

直接进入正题 首先明确360的图片为动态加载 所以毫无疑问你需要访问xhr 由于本人喜欢二次元所以选择了cosplay

 下面两个图片为动态加载的第二页于 第三页 这里可以很清楚的看见其js文件 且无传递值 所以基本无反爬 url的规则行极高

其第一页的url为https://image.so.com/zj?ch=beauty&t1=598&sn=0&listtype=new&temp=1 很明显的可以看出他的url规律

url="https://image.so.com/zj?ch=beauty&t1=598&sn={}0&listtype=new&temp=1" {}中的数字即为对应的页数从0开始3为步长

接着分析其内容。其文本格式也不怎么复杂,在list中存储图片的信息请注意cover_imgurl qhimg_thumb_url qhimg_url均为封面图片 只是大小不同不必在意  如果大家只下载其封面的话就不用看了,我想爬的是其所有照片,下面这个网站

 

而这个网站的链接并不存在于上面那个json文件中 在下图

 

这个网站不是异步加载 url简单但最后的参数才是关键这个参数只能从下图获取

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值