【Python】利用MD5文件去重

【Python】利用MD5文件去重

事情起因 :我的很多照片之前迁移到了阿里云盘进行备份,但是久而久之上次发现重复了很多,这就让我很是苦恼,手动删除实在太慢了。阿里云盘里面是有清理重复照片功能的,但是却告知我重复数量为0,简直是虚假功能。IOS16里面新增了重复照片清理功能,可是系统还不稳定,就降级15了。

综上原因,不得已写一个吧。

说一下实现,每一个文件及其副本,他们无论文件名是否相同,计算出来的MD5值是相同的。因为文件的MD5是计算的是文件流的,与文件名无关。基于此,再加上HashMap的特性,我们用每一个文件MD5来作为Key,他们的文件名作为Value,那么自然Key重复后也就意味着文件一致。

此处做的重复文件处理是放到了另一个文件夹,以便于后期核实,当然亦可直接删除。

再说一下使用Python的原因。操作系统中本身都支持文件的MD5计算,但是我也懒,Java里面还需要自己实现以下(好像也有直接的工具类),但对我这懒人来说,懒得做。相较而言,Python实现起来,较为简单。

再补充一下中间有一段比较文件名长短的判断,原因是相机本身一般依据时间设置文件名,而其他系统or软件在生成副本时候一般添加"副本"二字或者直接使用一段随机字符串,我们一般称之为UUID,来作为副本文件的文件名。所以对于此处我只需要对比一下长短即可应付多数情况。

步入正题,放代码:

注意:是同一个目录下重复的文件,不支持多个目录。你可以拿去改,对我来说用不到。

import os
import hashlib
import shutil

if __name__ == '__main__':
    # 存放文件的目录地址,不要遗落最后的\\, Linux or Mac需要换分隔符
    source_path = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我姥爷是校长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值