高并发任务调度中的错误处理与重试机制定制化设计实践-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_52242569/article/details/149203814

高并发任务调度中的错误处理与重试机制定制化设计实践

引言

在现代分布式系统和高并发应用中，任务调度和并发执行是常见需求。如何优雅地处理协程中的错误，保证系统的健壮性和高可用性，是设计中的重点难点。不同业务场景对错误处理的容忍度和策略差异较大：

有些场景要求一旦某个任务失败，立即终止所有任务，快速失败，节省资源。
有些场景则希望失败任务局部重试，其他任务继续执行，最大化完成率。

本文结合具体业务场景，深入探讨如何设计一套灵活且高效的错误处理与重试机制，满足不同需求，并给出详细实现示例。

业务场景分析

场景一：金融交易系统

特点：对数据一致性和准确性要求极高。
错误处理需求：任何一个交易失败，都必须立即停止所有交易，避免数据不一致。
策略：全局取消（CancelAll），快速失败。

场景二：日志采集与处理

特点：日志量大，部分日志丢失可接受。
错误处理需求：单条日志处理失败时，重试该条日志，其他日志继续处理。
策略：局部重试（RetryOnly），保证最大吞吐量。

场景三：批量数据导入

特点：导入任务量大，部分数据失败可后续补偿。
错误处理需求：失败数据重试，失败率超过阈值时报警，但不影响整体导入。
策略：局部重试 + 错误统计 + 告警。

设计目标

基于以上场景，设计目标如下：

支持多种错误处理策略切换
- 全局取消（CancelAll）
- 局部重试（RetryOnly）
统一重试机制
- 支持最大重试次数和指数退避
- 支持上下文取消，避免无谓重试
错误收集与统计
- 统计错误次数，支持阈值告警
易用性与扩展性
- 代码结构清晰，方便后续扩展

方案设计详解

1. 错误处理策略定义

type ErrorStrategy int

const (
    CancelAll ErrorStrategy = iota
    RetryOnly
)

2. 任务执行函数设计

任务执行时，先等待限流器许可。
调用带重试的业务函数。
根据策略决定是否取消全局上下文。
错误通过通道反馈。

3. 错误统计与告警

使用线程安全的计数器统计错误数。
超过阈值时触发告警（示例中用日志模拟）。

4. 主协程管理

创建带取消功能的上下文。
启动所有工作协程。
监听错误通道，统计错误，触发告警或取消。
等待所有协程完成。

代码实现示例

package main

import (
    "context"
    "errors"
    "fmt"
    "log"
    "math/rand"
    "sync"
    "sync/atomic"
    "time"

    "golang.org/x/time/rate"
)

type ErrorStrategy int

const (
    CancelAll ErrorStrategy = iota
    RetryOnly
)

type PodRateLimiter struct {
    limiter *rate.Limiter
}

func NewPodRateLimiter(rps int) *PodRateLimiter {
    return &PodRateLimiter{
        limiter: rate.NewLimiter(rate.Limit(rps), rps),
    }
}

func (p *PodRateLimiter) Wait(ctx context.Context) error {
    return p.limiter.Wait(ctx)
}

// 模拟调用API，随机失败
func callAPI(workID, reqID int) error {
    fmt.Printf("work %d: request %d sent at %v\n", workID, reqID, time.Now().Format("15:04:05.000"))
    time.Sleep(20 * time.Millisecond) // 模拟接口处理时间

    if rand.Float32() < 0.1 {
        return errors.New("simulated API failure")
    }
    return nil
}

// 带重试的调用API
func callAPIWithRetry(ctx context.Context, workID, reqID int, maxRetries int) error {
    var err error
    for attempt := 0; attempt <= maxRetries; attempt++ {
        if ctx.Err() != nil {
            return ctx.Err()
        }

        err = callAPI(workID, reqID)
        if err == nil {
            return nil
        }

        log.Printf("work %d: request %d failed attempt %d: %v", workID, reqID, attempt+1, err)
        backoff := time.Duration(50*(1<<attempt)) * time.Millisecond
        select {
        case <-time.After(backoff):
        case <-ctx.Done():
            return ctx.Err()
        }
    }
    return err
}

type ErrorCounter struct {
    count int64
    threshold int64
}

func NewErrorCounter(threshold int64) *ErrorCounter {
    return &ErrorCounter{threshold: threshold}
}

func (ec *ErrorCounter) Increment() int64 {
    return atomic.AddInt64(&ec.count, 1)
}

func (ec *ErrorCounter) Exceeded() bool {
    return atomic.LoadInt64(&ec.count) >= ec.threshold
}

func work(ctx context.Context, workID int, podLimiter *PodRateLimiter, wg *sync.WaitGroup, totalRequests int, maxRetries int, errChan chan<- error, strategy ErrorStrategy, cancelFunc context.CancelFunc, errCounter *ErrorCounter) {
    defer wg.Done()

    for i := 0; i < totalRequests; i++ {
        if err := podLimiter.Wait(ctx); err != nil {
            errChan <- fmt.Errorf("work %d: request %d wait canceled: %w", workID, i, err)
            if strategy == CancelAll {
                cancelFunc()
            }
            return
        }

        err := callAPIWithRetry(ctx, workID, i, maxRetries)
        if err != nil {
            errChan <- fmt.Errorf("work %d: request %d failed after retries: %w", workID, i, err)
            count := errCounter.Increment()
            if strategy == CancelAll {
                cancelFunc()
                return
            }
            if strategy == RetryOnly && errCounter.Exceeded() {
                log.Printf("Error threshold exceeded (%d), consider alerting or other actions", count)
                // 这里可以触发告警或其他处理
            }
            // RetryOnly策略下，继续执行后续请求
        }
    }
}

func main() {
    rand.Seed(time.Now().UnixNano())

    totalWorks := 5
    requestsPerWork := 20
    rpsLimit := 300
    maxRetries := 3
    errorThreshold := int64(10) // 错误阈值

    podLimiter := NewPodRateLimiter(rpsLimit)

    // 选择错误处理策略
    strategy := RetryOnly
    // strategy := CancelAll

    ctx, cancel := context.WithCancel(context.Background())
    defer cancel()

    var wg sync.WaitGroup
    errChan := make(chan error, totalWorks*requestsPerWork)
    errCounter := NewErrorCounter(errorThreshold)

    for i := 1; i <= totalWorks; i++ {
        wg.Add(1)
        go work(ctx, i, podLimiter, &wg, requestsPerWork, maxRetries, errChan, strategy, cancel, errCounter)
    }

    // 错误收集协程
    go func() {
        for err := range errChan {
            log.Printf("Error: %v", err)
        }
    }()

    wg.Wait()
    close(errChan)

    fmt.Println("All work done")
}

方案解读

1. 错误策略灵活切换

通过 strategy 变量控制错误处理行为。
CancelAll 策略下，任何错误立即取消所有任务。
RetryOnly 策略下，错误仅重试当前任务，其他任务继续。

2. 错误计数与告警

ErrorCounter 线程安全计数错误。
超过阈值时打印日志，实际可接入告警系统。

3. 重试机制

统一封装，支持指数退避。
支持上下文取消，避免无谓重试。

4. 限流与上下文管理

使用 rate.Limiter 控制请求速率。
使用 context.Context 管理协程生命周期，支持取消。

业务场景映射

业务场景	错误策略	说明
金融交易系统	CancelAll	快速失败，保证数据一致性
日志采集处理	RetryOnly	容忍部分失败，保证最大吞吐量
批量数据导入	RetryOnly + 错误统计	失败重试，超过阈值告警，保证整体质量