python实现与八爪鱼图片下载转换器等效的爬虫工具

本文介绍了作者在紧急情况下,为避免使用八爪鱼图片下载工具的问题,选择使用Python自建一个爬虫工具。通过Python读取Excel文件中的图片URL和保存路径,实现批量下载图片的功能。文章详细讲述了实现过程,包括Python读取Excel、下载文件的多种方法以及如何处理下载进度和已下载文件的检查。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上周为了从网络上搜寻一些数据而接触到了爬虫,由于时间紧迫,不能从头开始学习,就想从网上找一些现成的爬虫工具直接使用,百度搜素得到的结果有这么几种:LoalaSam_Beta、火车头、集搜客、八爪鱼、沙漠之鹰等,第一个是外国的软件,据说爬取国内的数据好像不好用;火车头、集搜客、八爪鱼这几个软件大同小异,都是不用写代码,用可视化的方法完成网页上数据的采集,当然了,要自己制定一些采集规则,也就是设计流程图。由于八爪鱼这个软件官方提供的学习资料和视频课程比较多,而且也有免费版本,所以就用了1天时间学习这个软件的使用并抓取到了一些数据。

遗憾的是,八爪鱼只能直接采集到网页上的文本信息和图片的链接,并不能直接将想要的图片下载下来,如果要将图片下载下来,就需要先用制定好的规则采集到图片的URL,并将这些URL存储到EXCEL中,在EXCEL中进行预处理后,在用八爪鱼提供的某个图片下载工具将URL对应的图片下载下来。然而经过尝试,八爪鱼交流群里下载到的那个图片转换工具貌似并不是他们自己公司开发的,而且我下载图片并不能成功,只是简单的生成了图片的缩略图,但是图片内容一个都没有,根本就没有什么卵用。

后来没办法,觉得这个工具应该也没有多高深,就抱着试试看的态度自己用python写一个吧。要写这样个工具,首先要明确这个工具的目的是什么,下面这张EXCEL表中存放的是要下载的图片名称、图片的URL和图片要保存在本地的路径。如下图:


这张表里,前两列分别存放了要下载的图片的名称、图片的URL,这两列数据是用八爪鱼从网页上上爬来的,第三列中的图片保存路径就是自己设定的了,这个如果量比较大的话,当然在EXCEL里用函数是很好完成的了,先在C1单元格里写上图片要存放的那个文件夹的路径,并在末尾加上“\”,然后自动填充,使这列中的文件路径相同;再在D1单元格中写上“.jpg”,写完后也自动填充该列;然后在E1单元中输入公式“=C1&A1&D1”,写完敲回车,就出了要存放的图片的包含名称和后缀的全路径,然后自动填充这列;最后,选中E列并将这列内容复制粘贴到F列中,然后删除掉C、D、E三列并保存该EXCEL表,这样,数据预处理的工作就完成了。下面介绍python写爬虫工具的过程:

想要的工具应该具有这样的功能,它能自动读取上面EXCEL文件中的B列内容并作为URL来访问网络,然后下载到对应的目标文件并保存到C列中对应的路径下生成此目标文件。这其实就涉及到两方面的内容,一个是用python读取EXCEL的操作,另一个就是用python下载文件的操作。我们先解决用python下载文件到本地的操作。

网上百度一下,说是有三种方法可以实现,

第一种:

import urllib

import urllib2

import requests

print "downloadi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值