使用 Go 实现并发目录扫描工具：按规则扫描文件并记录错误

在软件开发中，自动化扫描文件夹和识别潜在问题文件（如空文件、包含病毒关键词的文件等）是常见需求。本篇文章将带你实现一个基于 Go 的 **目录扫描工具**，支持**并发执行**，并能灵活处理不同的错误类型。工具会根据用户配置的规则，扫描指定目录下的文件，并在遇到错误文件时将其记录到日志文件中，确保系统不因单个错误而中断。

一、项目需求

1. 并发执行：支持并发扫描文件，但每次最多只能启动 `N` 个并发扫描任务。
2. 错误文件的定义：用户可以通过配置文件自定义错误文件类型（如：空文件、包含特定关键词的文件等）。遇到错误文件时，程序应记录并继续扫描，避免程序因错误文件而中断。
3. 高可维护性和扩展性：程序结构应清晰，能够方便地扩展功能和添加更多的错误处理规则。
4. 良好的 Go 设计思想：使用 Go 的并发编程和错误处理最佳实践，确保代码结构简洁且易于维护。

---

二、程序设计与实现

1. 参数解析与配置文件加载

首先，我们需要通过命令行参数传入 **待扫描目录**、**并发任务数** 和 **配置文件路径**。

```go
type Flags struct {
    directory   string
    concurrency int
    configPath  string
}

func parseFlags() *Flags {
    dir := flag.String("dir", ".", "Directory to scan")
    n := flag.Int("n", 8, "Maximum number of concurrent scans")
    configPath := flag.String("config", "config.yaml", "Path to config file")

    flag.Parse()

    return &Flags{
        directory:   *dir,
        concurrency: *n,
        configPath:  *configPath,
    }
}
```

在这个 `parseFlags()` 函数中，用户通过命令行传入 `-dir` 参数指定要扫描的目录，`-n` 参数控制并发扫描的最大数量，`-config` 用于指定配置文件路径。

---

2. 加载配置文件

配置文件 `config.yaml` 定义了扫描文件时的错误规则，支持多种错误类型，如空文件、包含病毒关键词、正则匹配等。使用 `yaml` 库读取并解析该配置文件。

```yaml
error_rules:
  - type: empty_file
  - type: keyword
    keyword: virus
  - type: keyword
    keyword: verusa
  - type: regex
    pattern: 'malware|trojan'
```

在 Go 中，我们通过以下代码定义结构体来表示错误规则，并加载配置文件：`

``go
type ErrorRuleConfig struct {
    Type    string `yaml:"type"`
    Keyword string `yaml:"keyword,omitempty"`
    Pattern string `yaml:"pattern,omitempty"`
}

type Config struct {
    ErrorRules []ErrorRuleConfig `yaml:"error_rules"`
}

func LoadConfig(path string) (*Config, error) {
    file, err := os.Open(path)
    if err != nil {
        return nil, fmt.Errorf("failed to open config file %s: %w", path, err)
    }
    defer file.Close()

    var cfg Config
    decoder := yaml.NewDecoder(file)
    if err := decoder.Decode(&cfg); err != nil {
        return nil, fmt.Errorf("failed to decode config file %s: %w", path, err)
    }

    return &cfg, nil
}
```

通过 `LoadConfig` 函数加载配置文件，支持解析自定义的错误规则。

---

3. 文件扫描与并发控制

接下来，我们需要定义一个扫描函数，该函数可以递归地遍历目录并按规则检查每个文件。为了避免一次性启动过多的并发任务，我们通过 **channel** 和 **goroutines** 来控制并发。

```go
func ScanDirWithChecker(root string, n int, checker ErrorChecker) ([]ErrorFile, error) {
    files, err := collectFiles(root)
    if err != nil {
        return nil, fmt.Errorf("failed to collect files from %s: %w", root, err)
    }

    if len(files) == 1 || n == 1 {
        return scanFilesSequentially(files, checker)
    }

    return scanFilesConcurrently(files, n, checker)
}
```

根据文件数和并发任务数，程序判断是否使用顺序扫描（`scanFilesSequentially`）或并发扫描（`scanFilesConcurrently`）。

并发扫描的实现：

```go
func scanFilesConcurrently(files []string, n int, checker ErrorChecker) ([]ErrorFile, error) {
    fileCh := make(chan string, len(files))
    errCh := make(chan ErrorFile, len(files))

    var wg sync.WaitGroup
    for i := 0; i < n; i++ {
        wg.Add(1)
        go func() {
            defer wg.Done()
            worker(fileCh, errCh, checker)
        }()
    }

    go func() {
        for _, file := range files {
            fileCh <- file
        }
        close(fileCh)
    }()

    go func() {
        wg.Wait()
        close(errCh)
    }()

    var errorFiles []ErrorFile
    for ef := range errCh {
        errorFiles = append(errorFiles, ef)
    }

    return errorFiles, nil
}
```

在 `scanFilesConcurrently` 函数中，我们使用 **channel** 来分配扫描任务，每个工作线程会从 `fileCh` 中获取文件并进行处理，扫描结果通过 `errCh` 返回。使用 `sync.WaitGroup` 确保所有任务完成后再关闭 `errCh`，最终将所有错误文件收集起来。

---

4. 处理错误信息并输出日志

对于扫描过程中出现的错误文件，我们将其分门别类地记录到不同的日志文件中：

```go
func processResults(errorFiles []ErrorFile) error {
    if len(errorFiles) == 0 {
        fmt.Println("No error files found.")
        return nil
    }

    fmt.Printf("Found %d error file(s). Writing results...\n", len(errorFiles))

    files, err := createOutputFiles()
    if err != nil {
        return fmt.Errorf("failed to create output files: %w", err)
    }
    defer closeOutputFiles(files)

    if err := writeResults(errorFiles, files); err != nil {
        return fmt.Errorf("failed to write results: %w", err)
    }

    fmt.Println("Results written to log files.")
    return nil
}
```

根据不同的错误类型（如空文件、病毒关键词匹配等），我们会将它们记录到不同的日志文件中，确保用户可以清晰地了解每种类型的错误文件。

---