彻底搞懂asyncio.gather异常行为:return_exceptions的3种应用模式

第一章:asyncio.gather异常行为的核心机制

在使用 Python 的 asyncio.gather 时,开发者常遇到其对异常处理的非直观行为。该函数用于并发运行多个协程,并收集它们的结果。然而,当其中一个协程抛出异常时,gather 的默认行为可能会影响其余任务的执行流程。
异常传播机制
asyncio.gather 默认在遇到第一个异常时不会立即中断其他任务,而是继续运行所有协程,直到全部完成或各自结束。但若未设置 return_exceptions=False(默认值),异常会被重新抛出,导致整个调用失败。
import asyncio

async def task_success():
    await asyncio.sleep(1)
    return "成功"

async def task_fail():
    await asyncio.sleep(0.5)
    raise ValueError("任务失败")

async def main():
    try:
        results = await asyncio.gather(
            task_success(),
            task_fail()
        )
    except ValueError as e:
        print(f"捕获异常: {e}")
    print(results)  # 不会执行到此处

asyncio.run(main())
上述代码中,尽管 task_success 能正常完成,但由于异常未被捕获且 return_exceptions 未启用,整个程序将提前终止。

控制异常行为的策略

通过设置参数可改变其行为:
  • return_exceptions=True:异常将作为结果返回,而非抛出
  • 手动包装协程以实现细粒度错误处理
  • 结合 try-except 在协程内部处理已知异常
配置行为
return_exceptions=False任一异常导致 gather 抛出异常
return_exceptions=True异常作为结果项返回,不中断流程
启用 return_exceptions=True 是避免级联失败的有效方式,尤其适用于批量请求场景。

第二章:return_exceptions=False 的默认行为解析

2.1 默认模式下的异常传播原理

在默认模式下,异常传播遵循调用栈的逆向路径。当方法执行过程中抛出异常且未被本地捕获时,该异常会自动向调用者逐层传递。
异常传播机制
运行时系统会检查每个调用层级是否存在匹配的异常处理器(try-catch)。若无,则继续向上抛出,直至线程终止或全局异常处理器介入。
public void methodA() {
    methodB(); // 异常从此处传播
}

public void methodB() {
    throw new RuntimeException("Error occurred");
}
上述代码中,`methodB` 抛出异常后未被捕获,直接传递给 `methodA`。由于 `methodA` 也未处理,异常继续向上蔓延。
  • 异常在未捕获时沿调用栈反向传播
  • 每层方法都有机会通过 try-catch 拦截异常
  • 最终未处理异常由 JVM 的默认处理器打印堆栈信息

2.2 实践:模拟一个任务失败导致整体中断

在分布式任务调度系统中,单个任务的异常可能引发整个流程中断。为验证系统的容错能力,需主动模拟此类场景。
任务执行链设计
构建包含三个阶段的任务流:数据准备、处理计算、结果归档。任一阶段失败将阻止后续执行。
模拟失败代码
func simulateTask() error {
    if rand.Float32() < 0.5 {
        return fmt.Errorf("task failed: processing error")
    }
    return nil
}
该函数有50%概率返回错误,用于测试任务中断机制。错误信息明确指示故障类型,便于日志追踪。
中断影响分析
  • 任务失败触发回调机制,通知主控节点
  • 主控节点终止后续依赖任务,防止资源浪费
  • 状态机更新为“中断”,记录失败快照

2.3 协程取消机制与资源清理问题

在并发编程中,协程的取消并非简单终止执行,而需确保其占用的资源能被正确释放。Go语言通过`context.Context`实现取消信号的传递,使协程能主动响应中断。
取消信号的传播
使用`context.WithCancel`可创建可取消的上下文,调用`cancel()`函数后,所有派生协程将收到取消通知:
ctx, cancel := context.WithCancel(context.Background())
go func() {
    defer cancel() // 确保退出时触发取消
    select {
    case <-time.After(3 * time.Second):
        fmt.Println("任务完成")
    case <-ctx.Done():
        fmt.Println("被取消:", ctx.Err())
    }
}()
cancel() // 主动触发取消
上述代码中,ctx.Done()返回一个只读通道,用于监听取消事件。一旦调用cancel(),所有监听该上下文的协程将立即退出。
资源清理的最佳实践
  • 始终在defer语句中调用cancel(),防止上下文泄漏
  • 打开文件、数据库连接等资源时,应在同一协程中注册清理逻辑
  • 避免在取消后继续写入通道,防止数据不一致

2.4 如何捕获并定位首个异常源

在复杂系统中,异常可能经过多层调用链传播,准确捕获首个异常源是问题定位的关键。通过尽早介入错误捕获机制,可防止异常被掩盖或包装。
使用延迟恢复捕获原始错误
Go语言中可通过defer结合recover在发生panic时捕获堆栈信息:

defer func() {
    if r := recover(); r != nil {
        log.Printf("panic caught: %v\n", r)
        log.Printf("stack trace: %s", debug.Stack())
    }
}()
该代码块应在函数入口处注册。参数r为引发panic的值,debug.Stack()输出完整调用堆栈,有助于还原错误现场。
错误封装与源头识别
建议使用errors.Wrap保留原始错误上下文:
  • 每层处理应添加上下文信息
  • 利用%+v格式化输出完整堆栈
  • 避免多次封装导致信息冗余

2.5 生产环境中使用False的风险评估

在生产环境中将关键配置项设置为 `False` 可能引发严重后果,尤其当涉及安全验证、数据持久化或服务发现机制时。
常见高风险配置
  • DEBUG=False:未正确配置日志和错误页面可能导致信息泄露
  • SECURE_SSL_REDIRECT=False:允许明文传输,增加中间人攻击风险
  • USE_TZ=False:时区处理异常,引发数据同步错误
代码示例与分析

SECURE_COOKIES = False  # 禁用安全Cookie标志
SESSION_COOKIE_SECURE = SECURE_COOKIES
CSRF_COOKIE_SECURE = SECURE_COOKIES
上述配置在 HTTPS 环境中若未启用,会导致 Cookie 在传输过程中以明文形式暴露。`SESSION_COOKIE_SECURE` 控制会话 Cookie 是否仅通过 HTTPS 发送,设为 `False` 后攻击者可在网络嗅探中窃取用户会话。
风险等级对照表
配置项风险等级潜在影响
DEBUG敏感信息泄露
SECURE_SSL_REDIRECT通信被劫持
USE_TZ时间逻辑错乱

第三章:return_exceptions=True 的安全聚合模式

3.1 异常封装为结果对象的设计思想

在现代软件架构中,将异常信息封装为统一的结果对象已成为提升系统健壮性的关键实践。该设计避免了传统 try-catch 模式带来的代码侵入性,使业务逻辑更加清晰。
统一响应结构
通过定义标准化的返回格式,所有接口均以一致方式传递执行结果与错误信息:
type Result struct {
    Success bool        `json:"success"`
    Data    interface{} `json:"data,omitempty"`
    Message string      `json:"message,omitempty"`
}
上述结构中,Success 标识操作是否成功,Data 携带业务数据,Message 提供可读性提示。无论服务调用成败,消费者始终接收完整对象,无需依赖抛出异常来判断流程状态。
优势分析
  • 降低错误处理复杂度,提升 API 可预测性
  • 便于跨语言、跨服务通信,尤其适用于微服务架构
  • 支持链路追踪与日志聚合,增强可观测性

3.2 实践:并发请求中优雅处理部分失败

在高并发场景下,多个请求并行执行时可能出现部分失败的情况。若直接中断整个流程,会导致资源浪费与用户体验下降。因此,需采用“容错+汇总”的策略,确保成功结果仍可被利用。
错误隔离与结果聚合
使用 Go 的 `errgroup` 配合 `sync.Mutex` 保护共享结果,实现失败隔离:

var results []string
var mu sync.Mutex

g, _ := errgroup.WithContext(context.Background())
for _, url := range urls {
    u := url
    g.Go(func() error {
        resp, err := http.Get(u)
        if err != nil {
            return err // 失败不中断其他请求
        }
        defer resp.Body.Close()
        body, _ := io.ReadAll(resp.Body)
        mu.Lock()
        results = append(results, string(body))
        mu.Unlock()
        return nil
    })
}
g.Wait() // 等待所有完成,仅记录错误
该模式通过互斥锁保护共享切片,每个协程独立处理错误,主流程继续执行。最终返回已获取的数据,并记录失败项日志,实现“部分成功即有价值”的设计哲学。
  • 并发请求应避免因单点失败导致整体失败
  • 使用同步原语保护共享数据是关键
  • 错误应被收集而非立即抛出

3.3 结果判别:区分正常返回与异常实例

在服务调用过程中,准确识别响应状态是保障系统稳定性的关键。通常,正常返回包含有效数据与成功状态码,而异常实例则携带错误信息与特定异常类型。
典型响应结构对比
类型状态码数据字段错误信息
正常返回200非空null
异常实例4xx/5xxnull非空
代码实现示例
type Response struct {
    Data  *UserData `json:"data"`
    Error *Error    `json:"error"`
    Code  int       `json:"code"`
}

func (r *Response) IsSuccess() bool {
    return r.Code == 200 && r.Error == nil
}
上述结构体通过显式定义 DataError 字段,结合状态码判断响应是否成功。当 Code 为 200 且 Error 为空时,视为正常返回,否则进入异常处理流程。

第四章:混合策略与高级控制模式

4.1 按任务分组实现细粒度异常控制

在复杂系统中,统一的异常处理机制难以满足不同业务场景的需求。通过按任务类型对异常进行分组管理,可实现更精准的错误响应策略。
异常分类设计
将异常划分为数据访问、网络通信、业务校验等类别,便于针对性处理:
  • 数据访问异常:如数据库连接失败、SQL执行错误
  • 网络通信异常:如超时、连接拒绝
  • 业务校验异常:如参数非法、状态冲突
代码示例与分析
func (h *Handler) ProcessTask(task Task) error {
    switch task.Type {
    case "db":
        return h.handleDBTask(task)
    case "http":
        return h.handleHTTPTask(task)
    default:
        return &TaskError{Code: "INVALID_TYPE", Msg: "unknown task type"}
    }
}
上述代码根据任务类型路由到不同的处理器,确保每类任务拥有独立的异常处理路径,提升系统的可维护性与可观测性。

4.2 结合asyncio.shield与gather的容错设计

在并发任务管理中,`asyncio.gather` 常用于并行执行多个协程,但其默认行为是任一任务异常即中断整体执行。通过 `asyncio.shield` 可对关键任务进行保护,防止被取消操作中断,从而提升系统容错能力。
shield 与 gather 的协作机制
`asyncio.shield` 能包裹协程,确保其不被外部取消影响,即使 `gather` 被调用 `cancel`,被 shield 保护的任务仍会完成。
import asyncio

async def task(name, delay):
    await asyncio.sleep(delay)
    return f"Task {name} done"

async def main():
    # 使用 shield 保护关键任务
    protected = asyncio.shield(task("A", 3))
    regular = task("B", 1)

    try:
        await asyncio.gather(protected, asyncio.wait_for(regular, timeout=2))
    except asyncio.TimeoutError:
        print("Regular task timed out, but protected task continues")
上述代码中,`task A` 被 shield 包裹,即便 `task B` 因超时引发异常,`gather` 不会强制中断 `task A`,保障了核心逻辑的完整性。该模式适用于数据提交、状态同步等关键路径场景。

4.3 超时控制与异常行为的交互影响

在分布式系统中,超时控制是保障服务可用性的关键机制,但其与异常行为的交互常引发难以预期的问题。当网络抖动或服务过载时,请求可能已处理成功但响应超时,此时重试将导致重复操作。
常见异常场景
  • 超时后服务端仍处理请求,造成数据重复
  • 级联超时引发雪崩效应
  • 客户端频繁重试加剧系统负载
代码示例:带超时的HTTP请求
client := &http.Client{
    Timeout: 2 * time.Second,
}
resp, err := client.Get("https://api.example.com/data")
该代码设置2秒超时,若此时服务端耗时3秒,请求实际成功写入数据库,但客户端因超时误判为失败。后续重试将再次提交,破坏幂等性。因此,需结合请求去重、熔断机制与上下文传递(如trace ID)协同处理。

4.4 动态决策:根据上下文切换return_exceptions策略

在异步任务编排中,return_exceptions 策略的选择不应是静态配置,而应基于调用上下文动态决策。例如,在用户请求场景中需快速失败,而在后台数据同步任务中则可容忍部分子任务异常。
策略选择的判断依据
  • 调用上下文类型:前端API请求 vs 后台批处理
  • 任务重要性等级:核心业务流应中断传播异常
  • 资源依赖关系:独立任务可启用容错机制
async def run_tasks_dynamically(tasks, is_critical=False):
    return_exceptions = not is_critical
    results = await asyncio.gather(
        *tasks,
        return_exceptions=return_exceptions
    )
    # 非关键任务中,结果可能包含Exception实例,需判别处理
该模式提升了系统的弹性与响应性,使异常处理策略更贴合实际业务语义。

第五章:最佳实践总结与架构建议

微服务通信的安全设计
在分布式系统中,服务间通信应始终启用 mTLS(双向传输层安全)。以下为 Istio 环境中启用 mTLS 的配置示例:
apiVersion: "security.istio.io/v1beta1"
kind: "PeerAuthentication"
metadata:
  name: "default"
  namespace: "default"
spec:
  mtls:
    mode: STRICT
该策略强制所有 Pod 使用加密连接,防止中间人攻击。
可观测性集成方案
生产级系统需整合日志、指标与追踪。推荐使用如下技术栈组合:
  • Prometheus:采集服务性能指标
  • Loki:聚合结构化日志
  • Jaeger:实现分布式链路追踪
  • Grafana:统一可视化展示
通过 OpenTelemetry SDK 统一埋点,避免多套监控体系并存导致的数据孤岛。
数据库分片与读写分离
面对高并发写入场景,采用基于用户 ID 的哈希分片策略可显著提升吞吐量。下表展示某电商平台订单库的分片规划:
分片编号用户ID范围主库实例从库实例
shard-010x0000–0x3FFFdb-master-adb-replica-a1,a2
shard-020x4000–0x7FFFdb-master-bdb-replica-b1,b2
读请求路由至最近可用从库,写请求由代理层定向至对应主库。
自动化故障恢复机制
Health Check → Circuit Breaker → Retry with Backoff → Fallback Response
该流程确保在依赖服务短暂不可用时,调用方能自动降级而非雪崩。例如使用 Hystrix 或 Resilience4j 实现熔断策略,配合指数退避重试,将失败率控制在 0.5% 以内。
class AsyncSocketManager: """异步Socket管理器 - 协调Reader和Writer线程""" # 分批连接参数 BATCH_SIZE = 250 # 每批处理的连接数 BATCH_INTERVAL = 20.0 # 批次间隔时间(秒) MAX_RETRIES = 5 # 增加最大重试次数 RECONNECT_INITIAL_DELAY = 20.0 # 初始重连延迟 RECONNECT_BACKOFF_FACTOR = 1.5 # 指数退避因子 MAX_RECONNECT_DELAY = 120.0 # 最大重连延迟(2分钟) HEALTH_CHECK_INTERVAL = 5.0 # 健康检查间隔 def __init__(self): self.running = True self._shutdown_event = asyncio.Event() self._cleanup_lock = asyncio.Lock() self.shutdown_requested = asyncio.Event() self.original_sigint_handler = None self.shutdown_requested = asyncio.Event() self.server_config = {&#39;ip&#39;: &#39;charge.b-conn.com&#39;, &#39;port&#39;: 5455} self.total = 0 self.writer = None self.reader = None self._active_tasks = set() self.connections: Dict[str, Dict] = {} self.batch_tasks: List[asyncio.Task] = [] # 批次任务列表 self._read_lock = asyncio.Lock() # 读取操作专用锁 self._write_lock = asyncio.Lock() # 写入操作专用锁 self._state_lock = asyncio.Lock() # 状态变更锁 self.logger = logging.getLogger(__name__) self.setup_logging() self.connection_pool = {} # 连接池 # 连接状态统计 self.stats = { "success": 0, "failed": 0, "pending": 0, "active": 0 } # 每个连接一个专用的状态锁 self.connection_locks = defaultdict(asyncio.Lock) def install_signal_handlers(self): """安装信号处理器""" try: loop = asyncio.get_running_loop() # 保存原始信号处理器 self.original_sigint_handler = loop.add_signal_handler( signal.SIGINT, self._initiate_shutdown ) self.logger.info("✅ 信号处理器安装完成") except (NotImplementedError, RuntimeError): # 在某些平台上可能不支持 self.logger.warning("⚠️ 当前平台不支持异步信号处理") def _initiate_shutdown(self): """初始化关闭过程""" self.logger.info("🔄 接收到关闭信号,开始优雅关闭...") self.shutdown_requested.set() def restore_signal_handlers(self): """恢复原始信号处理器""" try: loop = asyncio.get_running_loop() if self.original_sigint_handler is not None: loop.remove_signal_handler(signal.SIGINT) # 重新安装默认处理器 loop.add_signal_handler(signal.SIGINT, signal.default_int_handler) except Exception as e: self.logger.debug(f"恢复信号处理器时发生异常: {e}") async def close_all_connections(self): """异步关闭所有Socket连接""" self.logger.info("正在关闭所有Socket连接...") self.running = False self._shutdown_event.set() # 取消所有活跃任务 for task in self._active_tasks: if not task.done(): task.cancel() # 关闭所有连接 close_tasks = [] for pileCode in list(self.connections.keys()): conn = self.connections[pileCode] if &#39;writer&#39; in conn and conn[&#39;writer&#39;] is not None: writer = conn[&#39;writer&#39;] close_tasks.append(self.close_writer(writer, pileCode)) if close_tasks: await asyncio.gather(*close_tasks, return_exceptions=True) self.logger.info("所有连接已关闭") async def close_writer(self, writer, pileCode: str): """安全关闭写入器""" try: if not writer.is_closing(): writer.close() await writer.wait_closed() self.logger.debug(f"关闭连接: {pileCode}") except Exception as e: self.logger.error(f"关闭连接失败: {pileCode} 错误: {e}") async def _close_single_connection(self, conn_key: str): """关闭单个Socket连接""" try: if conn_key in self.connections: conn_info = self.connections[conn_key] # 实际的Socket关闭逻辑 if &#39;writer&#39; in conn_info: writer = conn_info[&#39;writer&#39;] writer.close() await writer.wait_closed() self.logger.debug(f"🔌 关闭连接 {conn_key}") del self.connections[conn_key] except Exception as e: self.logger.error(f"❌ 关闭连接 {conn_key} 时发生异常: {e}") async def batch_create_connections(self, pile_codes: List[str]): """添加健康监控器""" # 启动健康监控器 health_task = asyncio.create_task( self.connection_health_monitor(), name="connection_health_monitor" ) self.batch_tasks.append(health_task) """批量创建Socket连接(分批处理)""" total = len(pile_codes) batches = math.ceil(total / self.BATCH_SIZE) self.total_connections = total self.logger.info(f"开始分批创建连接,共{total}个桩号,分{batches}批处理,每批{self.BATCH_SIZE}个") for batch_num in range(batches): if self.shutdown_requested.is_set(): self.logger.warning("关闭信号已触发,停止创建新批次") break start_idx = batch_num * self.BATCH_SIZE end_idx = min(start_idx + self.BATCH_SIZE, total) batch = pile_codes[start_idx:end_idx] batch_id = batch_num + 1 self.logger.info(f"处理批次 {batch_id}/{batches} ({len(batch)}个桩号)") # 创建批量连接任务 task = asyncio.create_task( self.process_batch(batch, batch_id), name=f"batch_{batch_id}" ) self.batch_tasks.append(task) # 添加批次间隔 if batch_num < batches - 1: await asyncio.sleep(self.BATCH_INTERVAL) # 等待所有批次完成 if self.batch_tasks: await asyncio.gather(*self.batch_tasks) self.logger.info(f"所有批次处理完成! 成功:{self.stats[&#39;success&#39;]} 失败:{self.stats[&#39;failed&#39;]}") async def process_batch(self, pile_codes: List[str], batch_id: int): """处理单个批次的连接""" tasks = [] for i, pileCode in enumerate(pile_codes): message_id = f"batch{batch_id}-conn{i + 1}" task = asyncio.create_task( self.socket_worker(message_id, pileCode), name=f"batch{batch_id}-{pileCode}" ) tasks.append(task) self.connection_pool[pileCode] = {"status": "pending"} self.stats["pending"] += 1 # 等待批次内所有连接完成初始化 results = await asyncio.gather(*tasks, return_exceptions=True) # 统计批次结果 for result in results: if isinstance(result, Exception): self.stats["failed"] += 1 else: self.stats["success"] += 1 self.stats["pending"] -= len(pile_codes) self.stats["active"] = len(self.connections) async def socket_worker(self, message_id: str, pileCode: str): global logger """异步Socket工作协程""" retry_count = 0 last_reconnect_time = 0 # health_check_last = time.time() while self.running and not self._shutdown_event.is_set(): try: # 检查是否需要等待重连延迟 current_time = time.time() if last_reconnect_time > 0: delay = self.calculate_reconnect_delay(retry_count) if current_time - last_reconnect_time < delay: await asyncio.sleep(delay - (current_time - last_reconnect_time)) # 尝试创建连接 success = await self.create_socket_connection_with_retry(message_id, pileCode, retry_count) if not success: retry_count = min(retry_count + 1, self.MAX_RETRIES) last_reconnect_time = time.time() continue # 重置重试计数(连接成功) retry_count = 0 last_reconnect_time = 0 # 启动读写任务 await self.start_reader_writer(message_id, pileCode) # 健康检查和状态报告 # current_time = time.time() # if current_time - health_check_last > self.HEALTH_CHECK_INTERVAL: # pending_count = self.stats["pending"] # self.logger.info( # f"等待中={pending_count} 重试={retry_count}" # ) # health_check_last = current_time except asyncio.CancelledError: self.logger.info(f"⚠️ Socket工作协程被取消: {message_id}") if pileCode in self.connections: conn = self.connections[pileCode] if &#39;writer&#39; in conn and conn[&#39;writer&#39;] is not None: writer = conn[&#39;writer&#39;] try: if not writer.is_closing(): writer.close() await writer.wait_closed() except Exception: pass if pileCode in self.connections: del self.connections[pileCode] break except Exception as e: self.logger.error(f"❌ Socket工作异常: {message_id} 桩号: {pileCode} 错误: {e}") retry_count = min(retry_count + 1, self.MAX_RETRIES) last_reconnect_time = time.time() # 清理当前连接 if pileCode in self.connections: conn = self.connections[pileCode] if &#39;writer&#39; in conn and conn[&#39;writer&#39;] is not None: writer = conn[&#39;writer&#39;] try: if not writer.is_closing(): writer.close() await writer.wait_closed() except Exception: pass if pileCode in self.connections: del self.connections[pileCode] await asyncio.sleep(1) # 短暂暂停 finally: # 更新连接池状态 if pileCode in self.connection_pool: self.connection_pool[pileCode] = { "status": "retrying" if retry_count > 0 else "active", "retry_count": retry_count, "last_retry": last_reconnect_time } def calculate_reconnect_delay(self, retry_count: int) -> float: """计算指数退避的重连延迟""" delay = self.RECONNECT_INITIAL_DELAY * (self.RECONNECT_BACKOFF_FACTOR ** retry_count) return min(delay, self.MAX_RECONNECT_DELAY) def handle_task_completion(self, task: asyncio.Task): """任务完成回调处理""" try: # 首先检查任务是否被取消 if task.cancelled(): self.logger.debug(f"任务 {task.get_name()} 被取消") return if task.done() and task.exception(): self.logger.error(f"任务失败: {task.get_name()} {task.exception()}") # 标记连接需要重启 pile_code = task.get_name().split("_")[1] if pile_code in self.connections: writer = self.connections[pile_code]["writer"] if writer is not None: writer.close() if pile_code in self.connections: del self.connections[pile_code] except Exception as e: self.logger.error(f"任务回调处理错误: {e}") async def connection_health_monitor(self): """连接健康监控器""" while self.running and not self._shutdown_event.is_set(): try: real_active_count = 0 current_time = time.time() connections_to_restart = [] for pile_code, conn in list(self.connections.items()): # 检查是否超过最大重试次数 if conn.get("retry_count", 0) >= self.MAX_RETRIES: self.logger.warning(f"❌ 连接超过最大重试次数: {pile_code}") await self._close_single_connection(pile_code) continue if conn.get("isLogin") is True: real_active_count += 1 # 检查最后活动时间 last_activity = conn.get("last_time_stamp", 0) if current_time - last_activity > 60: # 1分钟无活动 self.logger.warning(f"桩号: {pile_code} 上次报文时间: {last_activity} 当前时间: {current_time} 时间间隔: {current_time - last_activity}") self.logger.warning(f"🕒 连接无活动超时: {pile_code}") connections_to_restart.append(pile_code) # 检查是否需要重启 if conn.get("needs_restart", False): connections_to_restart.append(pile_code) # 重启需要重置的连接 for pile_code in connections_to_restart: if pile_code in self.connections: conn = self.connections[pile_code] if conn[&#39;isLogin&#39;] and conn[&#39;isLogin&#39;] is not None: connections_to_restart.remove(pile_code) continue else: await self._close_single_connection(pile_code) # 重新启动工作协程 self.logger.info(f"🔄 重启连接: {pile_code}") task = asyncio.create_task( self.socket_worker(f"restart-{pile_code}", pile_code), name=f"restart_{pile_code}" ) self.batch_tasks.append(task) await asyncio.sleep(1) # 定期报告 restart_count = len(connections_to_restart) self.logger.info( f"🔍 健康检查: 活跃连接={real_active_count} 待重启={restart_count}" ) await asyncio.sleep(5) except Exception as e: self.logger.error(f"健康监控器异常: {e}") await asyncio.sleep(10) async def create_socket_connection_with_retry(self, message_id: str, pileCode: str, attempt: int) -> bool: """带重试机制的连接创建""" try: reader, writer = await asyncio.wait_for( asyncio.open_connection(self.server_config[&#39;ip&#39;], self.server_config[&#39;port&#39;]), timeout=30.0 + min(attempt * 5, 30) # 随重试次数增加超时 ) async with self.connection_locks[pileCode]: if pileCode not in self.connections: self.connections[pileCode] = { &#39;reader&#39;: reader, &#39;writer&#39;: writer, &#39;pileCode&#39;: pileCode, &#39;message_id&#39;: message_id, &#39;retry_count&#39;: 0, &#39;last_heartbeat1&#39;: 0, &#39;last_heartbeat2&#39;: 0, &#39;last_time_stamp&#39;: 0, &#39;isLogin&#39;: False, &#39;timeout_count_login&#39;: 0, &#39;timeout_count&#39;: 0, &#39;heart_serialNum&#39;: "00 00", &#39;status&#39;: &#39;Offline&#39;, &#39;charging&#39;: False, &#39;priceModelList&#39;: [] } self.logger.info(f"连接成功: {message_id} 桩号: {pileCode}") return True except asyncio.TimeoutError: self.logger.warning(f"⛔ 连接超时: {message_id} 桩号: {pileCode} (尝试 #{attempt + 1})") if pileCode in self.connections: conn = self.connections[pileCode] if &#39;writer&#39; in conn and conn[&#39;writer&#39;] is not None: writer = conn[&#39;writer&#39;] try: if not writer.is_closing(): writer.close() await writer.wait_closed() except Exception: pass if pileCode in self.connections: del self.connections[pileCode] await asyncio.sleep(1) # 短暂暂停 except ConnectionRefusedError: self.logger.warning(f"🚫 连接拒绝: {message_id} 桩号: {pileCode} (尝试 #{attempt + 1})") if pileCode in self.connections: conn = self.connections[pileCode] if &#39;writer&#39; in conn and conn[&#39;writer&#39;] is not None: writer = conn[&#39;writer&#39;] try: if not writer.is_closing(): writer.close() await writer.wait_closed() except Exception: pass if pileCode in self.connections: del self.connections[pileCode] await asyncio.sleep(1) # 短暂暂停 except Exception as e: self.logger.error( f"❌连接错误: {message_id} 桩号: {pileCode} 错误: {e} (尝试 #{attempt + 1})") if pileCode in self.connections: conn = self.connections[pileCode] if &#39;writer&#39; in conn and conn[&#39;writer&#39;] is not None: writer = conn[&#39;writer&#39;] try: if not writer.is_closing(): writer.close() await writer.wait_closed() except Exception: pass if pileCode in self.connections: del self.connections[pileCode] await asyncio.sleep(1) # 短暂暂停 return False async def start_reader_writer(self, message_id: str, pileCode: str): """启动读写任务""" if pileCode not in self.connections: return conn = self.connections[pileCode] reader = conn[&#39;reader&#39;] writer = conn[&#39;writer&#39;] self.writer, self.reader = AsyncSocketWriter(writer, pileCode, message_id, self.total, self.connections, self.connection_locks, self.logger), AsyncSocketReader( reader, pileCode, message_id, self.connections, self.connection_locks, self.logger) # 创建读写任务 read_task = asyncio.create_task( self.reader.start_reading(), name=f"reader_{pileCode}_{message_id}" ) write_task = asyncio.create_task( self.writer.start_write(), name=f"writer_{pileCode}_{message_id}" ) # 添加完成回调 read_task.add_done_callback(self.handle_task_completion) write_task.add_done_callback(self.handle_task_completion) # 添加到活跃任务集合 self._active_tasks.add(read_task) self._active_tasks.add(write_task) # 并行运行读写任务 try: await asyncio.gather( read_task, write_task, return_exceptions=True ) except Exception as e: self.logger.error(f"读写任务异常: {message_id} {pileCode}: {e}") 有无问题?
11-08
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值