34、GPU 计算：PCI 总线、多 GPU 平台及潜在优势解析

最新推荐文章于 2025-11-30 18:23:49 发布

perl8

最新推荐文章于 2025-11-30 18:23:49 发布

阅读量2

点赞数

CC 4.0 BY-SA版权

分类专栏：并行与高性能计算入门文章标签： GPU计算 PCI总线多GPU平台

本文链接：https://blog.youkuaiyun.com/perl8/article/details/155398168

并行与高性能计算入门专栏收录该内容

64 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

GPU 计算：PCI 总线、多 GPU 平台及潜在优势解析

1. PCI 总线：CPU 到 GPU 的数据传输开销

1.1 理论带宽估算

PCI 总线在 CPU 与 GPU 数据传输中起着关键作用。我们以 Gen3 PCIe 系统为例，该系统有 16 条通道，最大传输速率为 8.0 GT/s，开销因子为 0.985。其理论带宽计算公式如下：

Theoretical Bandwidth (GB/s)
    = 16 lanes × 8.0 GT/s × 0.985 (Gb/GT) × byte/8 bits
    = 15.75 GB/s

1.2 基准测试应用

实际中，PCI 总线的带宽受多种因素影响，如操作系统、系统驱动、计算节点上的其他硬件组件、GPU 编程 API 以及通过 PCI 总线传输的数据块大小等。在开发应用时，我们能控制编程 API 和数据块大小。为探究数据块大小对带宽的影响，我们可以使用微基准测试。以下是一个从 CPU 主机向 GPU 设备复制数据的代码示例：

// PCI_Bandwidth_Benchmark.c
35 void Host_to_Device_Pinned( int N, double *copy_time )
36 {
37    float *x_host, *x_device;
38    struct timespec tstart;
39 
40    cudaError_t status = cudaMallocHost((v