本篇博客我们将学习如何通过 scrapy 批量下载文件,还能学习通过密码解压缩包?
目标站点分析
本次要采集的目标站点为:【车标网】,最终获取的数据是车标的的矢量图。
在测试过程中发现,最后下载的压缩包存在解压密码,所以增加一个 通过密码解压缩的步骤。
素材的下载地址,比较容易获取到,通过地址 logo.php?id=119
修改为 download.php?id=119
即可实现。
其中车标列表页所在的页面无迭代规则,按照分类获取即可:
http://www.chebiao.net/domestic.php
http://www.chebiao.net/es.php
http://www.chebiao.net/jsk.php
http://www.chebiao.net/other.php
http://www.chebiao.net