12、GPU加速矩阵指数求解一维含时薛定谔方程及Lanczos - Montgomery方法在现代超级计算机上的应用

study

于 2025-09-19 12:01:54 发布

阅读量35

点赞数

CC 4.0 BY-SA版权

分类专栏：超级计算前沿洞察文章标签： GPU加速矩阵指数含时薛定谔方程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/study/article/details/152695959

超级计算前沿洞察专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

GPU加速矩阵指数求解一维含时薛定谔方程及Lanczos - Montgomery方法在现代超级计算机上的应用

1. GPU加速矩阵指数求解一维含时薛定谔方程

在求解一维含时薛定谔方程（TDSE）时，采用GPU加速矩阵指数的方法具有显著优势。

1.1 GPU内存分配问题

在GPU中，需要为四个复矩阵分配内存，分别是初始矩阵、第k项矩阵、第(k + 1)项矩阵和结果矩阵。由于实部和虚部可以分别存储在不同设备上，这些矩阵最多可分布在八个GPU上。在存储结果矩阵（实部和虚部）的设备上，需要分配一个矩阵大小的内存来接收第k项的数据并进行求和。相比之下，存储复波函数（ψj和ψj + 1）和势能向量（V）所需的内存要少得多。此外，在多GPU的通用矩阵乘法（GEMM）执行过程中，还需要依赖于分块矩阵大小的临时内存。分块大小越小，所需的临时内存体积越小，但建议根据平台参数选择最优分块大小。

1.2 测试平台

本研究的结果是在HSE大学的cHARISMa超级计算机的节点上获得的，主要涉及两种类型的节点：
- 第一种节点基于8个Nvidia A100 GPU的“E型”平台，每个GPU有80GB的HBM2内存，八个GPU通过NVLINK 3.0和NVSwitch连接。
- 第二种节点基于4个Nvidia V100 GPU的“A、B、C型”平台，每个GPU有32GB的HBM2内存，四个GPU通过NVLINK 2.0连接。对于配置K（A、B类型）和配置M（C类型），GPU之间没有差异。

测试使用的标准HPC软件栈基于CentOS Linux发行版7.9.2009、GNU编译器8.3.0和CUDA版本11.7.64，驱动

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。