GPU加速矩阵指数求解一维含时薛定谔方程及Lanczos - Montgomery方法在现代超级计算机上的应用
1. GPU加速矩阵指数求解一维含时薛定谔方程
在求解一维含时薛定谔方程(TDSE)时,采用GPU加速矩阵指数的方法具有显著优势。
1.1 GPU内存分配问题
在GPU中,需要为四个复矩阵分配内存,分别是初始矩阵、第k项矩阵、第(k + 1)项矩阵和结果矩阵。由于实部和虚部可以分别存储在不同设备上,这些矩阵最多可分布在八个GPU上。在存储结果矩阵(实部和虚部)的设备上,需要分配一个矩阵大小的内存来接收第k项的数据并进行求和。相比之下,存储复波函数(ψj和ψj + 1)和势能向量(V)所需的内存要少得多。此外,在多GPU的通用矩阵乘法(GEMM)执行过程中,还需要依赖于分块矩阵大小的临时内存。分块大小越小,所需的临时内存体积越小,但建议根据平台参数选择最优分块大小。
1.2 测试平台
本研究的结果是在HSE大学的cHARISMa超级计算机的节点上获得的,主要涉及两种类型的节点:
- 第一种节点基于8个Nvidia A100 GPU的“E型”平台,每个GPU有80GB的HBM2内存,八个GPU通过NVLINK 3.0和NVSwitch连接。
- 第二种节点基于4个Nvidia V100 GPU的“A、B、C型”平台,每个GPU有32GB的HBM2内存,四个GPU通过NVLINK 2.0连接。对于配置K(A、B类型)和配置M(C类型),GPU之间没有差异。
测试使用的标准HPC软件栈基于CentOS Linux发行版7.9.2009、GNU编译器8.3.0和CUDA版本11.7.64,驱动
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



