【Python】利用MD5文件去重
事情起因 :我的很多照片之前迁移到了阿里云盘进行备份,但是久而久之上次发现重复了很多,这就让我很是苦恼,手动删除实在太慢了。阿里云盘里面是有清理重复照片功能的,但是却告知我重复数量为0,简直是虚假功能。IOS16里面新增了重复照片清理功能,可是系统还不稳定,就降级15了。
综上原因,不得已写一个吧。
说一下实现,每一个文件及其副本,他们无论文件名是否相同,计算出来的MD5值是相同的。因为文件的MD5是计算的是文件流的,与文件名无关。基于此,再加上HashMap的特性,我们用每一个文件MD5来作为Key,他们的文件名作为Value,那么自然Key重复后也就意味着文件一致。
此处做的重复文件处理是放到了另一个文件夹,以便于后期核实,当然亦可直接删除。
再说一下使用Python的原因。操作系统中本身都支持文件的MD5计算,但是我也懒,Java里面还需要自己实现以下(好像也有直接的工具类),但对我这懒人来说,懒得做。相较而言,Python实现起来,较为简单。
再补充一下中间有一段比较文件名长短的判断,原因是相机本身一般依据时间设置文件名,而其他系统or软件在生成副本时候一般添加"副本"二字或者直接使用一段随机字符串,我们一般称之为UUID,来作为副本文件的文件名。所以对于此处我只需要对比一下长短即可应付多数情况。
步入正题,放代码:
注意:是同一个目录下重复的文件,不支持多个目录。你可以拿去改,对我来说用不到。
import os
import hashlib
import shutil
if __name__ == '__main__':
# 存放文件的目录地址,不要遗落最后的\\, Linux or Mac需要换分隔符
source_path =