CuPy基础教程：GPU加速的NumPy替代方案-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00034/article/details/148415980

CuPy基础教程：GPU加速的NumPy替代方案

cupy cupy/cupy: Cupy 是一个用于 NumPy 的 Python 库，提供了基于 GPU 的 Python 阵列计算和深度学习库，可以用于机器学习，深度学习，图像和视频处理等任务。项目地址: https://gitcode.com/gh_mirrors/cu/cupy

什么是CuPy

CuPy是一个基于CUDA的GPU加速计算库，它提供了与NumPy高度兼容的API接口，让开发者能够轻松地将现有的NumPy代码迁移到GPU上运行。CuPy的核心是cupy.ndarray类，它与NumPy的numpy.ndarray有着相似的接口和行为，但数据存储在GPU显存中，能够利用GPU的并行计算能力大幅提升运算速度。

cupy.ndarray基础

cupy.ndarray是CuPy的核心数据结构，其使用方式与NumPy几乎一致：

import cupy as cp
import numpy as np

# 创建CuPy数组（存储在GPU上）
x_gpu = cp.array([1, 2, 3])

# 创建NumPy数组（存储在CPU上）
x_cpu = np.array([1, 2, 3])

# 计算L2范数（在GPU上执行）
l2_gpu = cp.linalg.norm(x_gpu)

# 计算L2范数（在CPU上执行）
l2_cpu = np.linalg.norm(x_cpu)

CuPy实现了NumPy的大部分功能，包括数学运算、线性代数、随机数生成等。熟悉NumPy的用户可以几乎无学习成本地使用CuPy。

当前设备概念

CuPy引入了"当前设备"的概念，这是默认执行操作的GPU设备。默认情况下，CuPy使用设备0：

# 在设备0上创建数组
x_on_gpu0 = cp.array([1, 2, 3, 4, 5])

要切换到其他GPU设备，可以使用设备上下文管理器：

# 切换到设备1
with cp.cuda.Device(1):
    x_on_gpu1 = cp.array([1, 2, 3, 4, 5])

每个CuPy数组都有一个device属性，指示它所在的设备：

print(x_on_gpu1.device)  # 输出: <CUDA Device 1>

数据转移

将数据转移到GPU

使用cupy.asarray()可以将CPU数据转移到当前GPU设备：

x_cpu = np.array([1, 2, 3])
x_gpu = cp.asarray(x_cpu)  # 转移到当前GPU设备

也可以在不同GPU设备间转移数据：

with cp.cuda.Device(0):
    x_gpu_0 = cp.array([1, 2, 3])
    
with cp.cuda.Device(1):
    x_gpu_1 = cp.asarray(x_gpu_0)  # 从设备0转移到设备1

将数据从GPU转移回CPU

有两种方法可以将GPU数据转移回CPU：

# 方法1: 使用cupy.asnumpy()
x_cpu = cp.asnumpy(x_gpu)

# 方法2: 使用get()方法
x_cpu = x_gpu.get()

内存管理

CuPy使用内存池技术来高效管理GPU内存。它会预先分配一大块内存，并在内部进行管理，避免频繁的内存分配和释放操作，从而提高性能。当GPU内存不足时，CuPy会自动释放未使用的内存。

编写CPU/GPU通用代码

CuPy提供了cupy.get_array_module()函数，可以自动判断输入数据是在CPU还是GPU上，并返回相应的模块（NumPy或CuPy），从而实现代码的通用性：

def softplus(x):
    xp = cp.get_array_module(x)  # 自动获取正确的模块
    print("Using:", xp.__name__)
    return xp.maximum(0, x) + xp.log1p(xp.exp(-abs(x)))

这个函数可以同时处理NumPy数组和CuPy数组，无需修改代码。