python实现scrapy爬取图片到本地时的sha1摘要算法文件名

最新推荐文章于 2024-03-27 20:00:00 发布

weixin_34357928

最新推荐文章于 2024-03-27 20:00:00 发布

阅读量144

点赞数

CC 4.0 BY-SA版权

文章标签： python

原文链接：http://www.cnblogs.com/zhangtianyuan/p/6867472.html

本文介绍使用Scrapy爬虫抓取图片，并利用SHA1摘要算法为每张图片生成唯一文件名的方法。通过XPath提取图片链接，并使用Python的hashlib库实现SHA1算法。

2017-03-29

Scrapy爬图片到本地应该会给图片自动生成sha1摘要算法文件名，我第一次用scrapy也不清楚太多，就在程序里自己写了一段实现这一功能的代码。需import hashlib

# 存储所有图片链接image_urls
item["image_urls"] = ['http://www.nosta.gov.cn/upload/2017slgb'+i.replace('..', '') for i in response.xpath('//img[@width="840px"]/@src').extract()]
# 存储所有图片本地地址和图片名（列表中存存字典）images
s = hashlib.sha1()
item["images"] = []
for i in item["image_urls"]:
dict1 = {}
dict1["url"] = i
s.update(i)
dict1["path"] = s.hexdigest() + ".jpg"
item["images"].append(dict2)

其实主要核心是下面这段

import hashlib

sha1 = hashlib.sha1()
sha1.update('自定义内容')print sha1.hexdigest()

转载于:https://www.cnblogs.com/zhangtianyuan/p/6867472.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34357928

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python爬虫之Scrapy框架系列（20）——剖析媒体管道类源码

孤寒者的博客

08-11

2万+

Python爬虫之Scrapy框架系列（20）——剖析媒体管道类源码

Scrapy框架知识手册 - 从零到一

UK - UofL HW - SDE

06-20

3337

Scrapy框架一、初识Scrapy1、Scrapy简介2、网络爬虫原理3、网络爬虫的基本流程二、Scrapy安装与创建1、安装2、查看命令3、主要命令三、Scrapy简单实现1、项目创建2、创建爬虫3、更改robot协议4、分析页面5、编写spider6、解析页面7、运行爬虫四、Scrapy框架结构1、Scrapy结构2、Scrapy原理(数据流动)3、Scrapy各个组件的介绍五、spiders文件之spider.Spider1、Spider1.1、name1.1、allowed_domains1.2、

参与评论您还未登录，请先登录后发表或查看评论

【Python】使用hashlib进行MD5和sha1摘要计算

weixin_34095889的博客

05-13

271

代码： import hashlib hash = hashlib.md5() hash.update('http://www.cnblogs.com/xiandedanteng'.encode('utf-8')) print(hash.hexdigest()) hash = hashlib.sha1() hash.update('逆火'.encode('utf-8')) ...

chatgpt赋能python：PythonSHA1介绍

atest166的博客

05-25

357

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

python写的简单的文件校验工具

10-13

python3.6.2写的文件校验工具,支持md5,sha1,sha256,sha512;大文件会出现未响应的情况,只需稍微等待一会;windows10下测试可用;tkinter写的界面,不支持文件拖放.

android中使用.9.png格式图片，svn小问题，SHA1的获取

kingsley1212的博客

06-19

336

一．android studio 怎么使用.9.png 格式的图片 1怎么建立一个图片导入图片，然后点击鼠标右键，选中这个就可以了，方法二把图片的后缀名改成.9.png就可以了， ** .9.png 格式的图片使用方法以及介绍** 上面那个图片介绍，横向和纵向写反了，懒得改了，在这说明一下二·新建文件夹删除后，还保留在SVN的处理方法把这个文件删除后，对仅仅删除某个文件后...

前端js根据sha1加密进行图片查重

05-10

这是网上找到的大佬代码，改造了Crypto-JS v2.5.1根据sha1加密进行图片查重,调试时请打开控制台查看console

40道进阶的Python练习题

最新发布

程序媛学姐的博客

03-27

2975

大家好，我是程序媛学姐，今天为大家梳理了40道进阶的Python练习题，方便大家学习参考。本文目录1. 编写一个Python程序实现自定义装饰器，用于记录函数执行时间2. 创建一个Python上下文管理器，用于测量一段代码的执行时间3. 使用Python实现二分查找算法用于已排序列表4. 编写一个Python程序解析JSON字符串并使用递归提取特定信息5. 开发一个Python脚本，使用`requests`库自动下载给定URL的文件6. 实现一个自定义异常类，并在try-except块中处理它7. 编写

Python常用库汇总

a123789999的博客

06-02

1021

Python常用的库简单介绍一下 fuzzywuzzy ,字符串模糊匹配。 esmre ,正则表达式的加速器。 colorama 主要用来给文本添加各种颜色，并且非常简单易用。 Prettytable 主要用于在终端或浏览器端构建格式化的输出。 difflib ，[Python]标准库，计算文本差异。 Levenshtein ，快速计算字符串相...

花了1个月时间，把Python库全部整理出来了，覆盖所有，建议收藏

03-19

946

目录库名称简介文件处理图像处理游戏和多媒体大数据与科学计算人工智能与机器学习系统与命令行数据库在这里还是要推荐下我自己建的Python学习群:705933274，群里都是学Python的，如果你想学或者正在学习Python ，欢迎你加入，大家都是软件开发党，不定期分享干货（只有Python软件开发相关的），包括我自己整理的一份2021最新的Python进阶资料和零基础教学，欢迎进阶中和对Python感兴趣的小伙伴加入！库名称简介 Chardet字符编...

爬虫篇（3）scrapy 去重与 scrapy_redis 去重与布隆过滤器（转）

tzyyy1的博客

06-24

767

在开始介绍 scrapy 的去重之前，先想想我们是怎么对 requests 对去重的。requests 只是下载器，本身并没有提供去重功能。所以我们需要自己去做。很典型的做法是事先定义一个去重队列，判断抓取的 url 是否在其中，如下： crawled_urls = set() def check_url(url): if url not in crawled_urls: ...

SHA1原理及处理步骤，附示例

cmqwan的博客

09-05

1万+

SHA1原理及处理步骤，附示例 SHA1原理及处理步骤，附示例声明常量及运算符：预处理转成位补位填入原数据长度示例运算求Mn 求Wn 求H0~H4 按顺序拼接H0 H1 H2 H3 H4，即可得到结果示例输入任意的一个字符串，将会获得一个160位的二进制信息摘要(我们看到的，一般是已经转换成十六进制消息，共40位) 这篇文章将会以 Zab 为消息，...

sha1校验工具_⑩写的小工具1——文件MD5、SHA校验工具

weixin_42469243的博客

01-22

798

前言大家常常会遇到需要比对两份文件是否一致的情景：备份到U盘里和网盘里的文件是否与原文件的一致？下载下来的镜像、压缩包是否与网站上的一致？（一些网站会给出压缩包的MD5或SHA1值）有多个版本的论文，上传之后需要下载下来确定是否上传了最终版本……如果是文本文件的话，也许直接打开看一看就知道了。可是，如果是图片、压缩包、可执行程序，那么比对起来就比较麻烦（当然，看文件大小、修改时间也是一种方法，可是...

SHA1算法实现及详解

01-02

1868

1 SHA1算法简介安全哈希算法（Secure Hash Algorithm）主要适用于数字签名标准（Digital Signature Standard DSS）里面定义的数字签名算法（Digital Signature Algorithm DSA）。对于长度小于2^64位的消息，SHA1会产生一个160位的消息摘要。当接收到消息的时候，这个消息摘要可以用来验证数据的完整性。在传输...

AES,SHA1,DES,RSA,MD5区别

热门推荐

hengshujiyi的专栏

05-25

5万+

AES：更快，兼容设备，安全级别高； SHA1：公钥后处理回传 DES：本地数据，安全级别低 RSA：非对称加密，有公钥和私钥 MD5：防篡改相关：公开密钥加密（英语：public-key cryptography，又译为公开密钥加密），也称为非对称加密（asymmetric cryptography），一种密码学算法类型，在这种密码学方法中，需要一对密钥，一个是私

python的md5和sha1加密

aiyi2350的博客

02-06

665

首先介绍一下MD5和SHA1 MD5 MD5的全称是Message-Digest Algorithm 5（信息-摘要算法）。128位长度。目前MD5是一种不可逆算法。具有很高的安全性。它对应任何字符串都可以加密成一段唯一的固定长度的代码。 SHA1 SHA1的全称是Secure Hash Algorithm(安全哈希算法) 。SHA1基于MD5，加密后的数据长度...

SHA1 简单介绍以及使用

chelen_jak的专栏

03-19

1万+

原文出处：blog.sina.com.cn/s/blog_a42c4c6c0102woq9.html 安全哈希算法（Secure Hash Algorithm） SHA-1是一种数据加密算法，该算法的思想是接收一段明文，然后以一种不可逆的方式将它转换成一段（通常更小）密文，也可以简单的理解为取一串输入码（称为预映射或信息），并把它们转化为长度较短、位数固定的输出序列即散列值（也称为信...

Python中摘要算法MD5，SHA1讲解

张康的博客

10-21

1148

Python中摘要算法MD5，SHA1讲解摘要算法又称哈希算法、散列算法。它通过一个函数，把任意长度的数据转换为一个长度固定的数据串（通常用16进制的字符串表示）。摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest，目的是为了发现原始数据是否被人篡改过（不同的data计算出来的...

SHA1获取的几种方式

qq_33704095的博客

06-29

1万+

1、通过Eclipse编译器获取SHA1使用 adt 22 以上版本，可以在 eclipse 中直接查看。Windows：依次在 eclipse 中打开 Window -> Preferances -> Android -> Build。Mac：依次在 eclipse 中打开 Eclipse/ADT->Preferances -> Android -> Buil...

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现

Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码 Scrapy是一个基于Python的爬虫框架，能够快速、高效地爬取网站数据。本文将详细介绍如何使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码。 Scrapy...