下面我们测试了分别使用CPU和GPU执行矩阵乘法得到的耗时差异: 运行结果如下: 注意,上面的运行揭示了下面几点: cpu_c的第一次计算耗时明显超过后面的3次。gpu_c的第一次计算耗时明显大大超过后面3次。GPU运行耗时差不多是CPU的1/10。