dupeGuru 开发者指南：深入理解代码架构与核心机制-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01107/article/details/148487316

dupeGuru 开发者指南：深入理解代码架构与核心机制

dupeGuru 是一款高效的重复文件查找工具，其核心功能是通过智能算法快速识别计算机中的重复文件。作为开发者，理解其代码架构和工作原理对于进行二次开发或功能扩展至关重要。本文将深入剖析 dupeGuru 的代码架构、核心机制和开发规范。

dupeGuru 采用 Git 进行版本控制，其分支策略遵循以下原则：

与传统的 MVC 架构不同，dupeGuru 的代码结构有其独特的设计特点：

核心控制类：core.app.DupeGuru 是整个应用的核心枢纽，作为 Python 代码与 GUI 之间的唯一接口。它提供了扫描启动(start_scanning)、目录添加(add_directory)等关键方法。
平台特定实现：各平台(如 Cocoa、PyQt 等)都有 DupeGuru 的子类实现，处理平台相关的操作。例如，"从结果中移除选中项"操作在不同平台有不同的实现方法。

这种设计虽然打破了传统的 MVC 模式，但为跨平台支持提供了灵活性。

考虑到文件扫描等操作耗时较长，dupeGuru 实现了完善的异步任务处理系统：

进度反馈：通过 hscommon.jobprogress.performer.ThreadedJobPerformer 实例向 GUI 层报告任务进度。
任务启动：核心类通过 _start_job() 方法启动任务，具体实现由平台子类负责。
线程安全：所有耗时操作都在后台线程执行，确保界面响应流畅。

dupeGuru 的核心匹配功能(SE 和 ME 模式)主要在 core.engine 模块中实现：

匹配阶段：getmatches 函数接收文件列表(core.fs.File)，返回匹配对及其相似度百分比。
分组阶段：get_groups 函数将匹配对组织成文件组(Group 类)，每个组包含相互匹配的文件集合。
结果处理：扫描完成后，分组结果存储在 core.app.DupeGuru.results 中，这是一个 core.results.Results 实例，负责处理标记、排序、删除等后续操作。