对于scrapy我还是没有感觉到他的强大 怪我太菜 仍然感觉requests好用
本片基于360图片的爬取 并对深度的爬取 不爬取封面 太lower了
直接进入正题 首先明确360的图片为动态加载 所以毫无疑问你需要访问xhr 由于本人喜欢二次元所以选择了cosplay
下面两个图片为动态加载的第二页于 第三页 这里可以很清楚的看见其js文件 且无传递值 所以基本无反爬 url的规则行极高
其第一页的url为https://image.so.com/zj?ch=beauty&t1=598&sn=0&listtype=new&temp=1 很明显的可以看出他的url规律
url="https://image.so.com/zj?ch=beauty&t1=598&sn={}0&listtype=new&temp=1" {}中的数字即为对应的页数从0开始3为步长
接着分析其内容。其文本格式也不怎么复杂,在list中存储图片的信息请注意cover_imgurl qhimg_thumb_url qhimg_url均为封面图片 只是大小不同不必在意 如果大家只下载其封面的话就不用看了,我想爬的是其所有照片,下面这个网站
而这个网站的链接并不存在于上面那个json文件中 在下图
这个网站不是异步加载 url简单但最后的参数才是关键这个参数只能从下图获取