Interformer项目GPU设备索引问题的分析与解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_07266/article/details/148376703

Interformer项目GPU设备索引问题的分析与解决方案

Interformer 项目地址: https://gitcode.com/gh_mirrors/int/Interformer

问题背景

在使用Interformer项目进行分子对接推理时，部分用户遇到了CUDA设备相关的运行时错误。具体表现为当运行inference.py脚本时，系统抛出"RuntimeError: CUDA error: invalid device ordinal"错误，提示设备序号无效。这类问题通常与GPU设备的配置和调用方式有关。

错误原因分析

经过深入分析，发现问题的根源在于PyTorch框架的GPU索引处理方式与脚本中的设备参数设置存在不一致性。PyTorch采用零基索引系统，即第一个GPU的索引为0，而脚本中可能传递了非零基的索引值。具体表现为：

当用户设置args['gpus'] = 1时，脚本尝试访问第二个GPU(索引1)
但实际环境中可能只配置了一个GPU(索引0)，导致无效设备错误
错误信息中还提示了CUDA内核错误可能异步报告的特性，增加了调试难度

解决方案实现

针对这一问题，技术社区提出了对collect_results_gpu函数的修改方案。新方案通过以下方式增强了代码的健壮性：

设备参数处理优化：将默认参数从'cpu'改为None，提供更灵活的处理方式
智能设备选择：
- 当参数为None或'cpu'或0时，自动选择可用的CUDA设备或回退到CPU
- 对于整数参数，自动进行零基索引转换
异常处理增强：确保在任何设备配置下都能有合理的回退方案

修改后的函数核心逻辑如下：

def collect_results_gpu(result_part, device=None):
    if device is None or device == 'cpu' or device == 0:
        device = 'cuda:0' if torch.cuda.is_available() else 'cpu'
    elif isinstance(device, int):
        device = f'cuda:{device - 1}'  # 自动调整为零基索引