高性能计算的矩阵乘法优化 - Python +MPI的实现

最新推荐文章于 2024-07-04 10:16:12 发布

原创

最新推荐文章于 2024-07-04 10:16:12 发布 · 2.3k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#python #矩阵 #numpy #性能优化

该实验通过Python实现了矩阵乘法的单进程和多进程MPI版本。在规模较大的矩阵运算中，多进程MPI方法相比于单进程有显著的性能提升，但在进程数增加到一定程度后，由于并行开销，优化效果减弱。实验展示了并行计算的强拓展性和弱拓展性特点。

本次实验的目的是使用MPI的并行性来进行矩阵乘法优化，本人使用 Python 实现

0. 硬件信息

实验硬件：

CPU：AMD Ryzen 7 5800H(3.20 GHz)

内存：32GB (3200MHz)

1. 实验要求、数据

要求：使用一个矩阵，一个向量相乘，分别用单进程和多进程的mpi接口实现。

全局的规模参数是 Scale

数据示例：

当 Scale=5时，数据示例如下：

矩阵形式：

$\begin{bmatrix}2&-1&0&0&0\\-1&2&-1&0&0\\0&-1&2&-1&0\\0&0&-1&2&0\\0&0&0&-1&2\end{bmatrix}$

向量形式：

$\begin{bmatrix}1&2&3&1&2\end{bmatrix}$

备注：矩阵由三个对眼矩阵（方阵）合并而成，向量由1，2，3按顺序重复组成

2. 数据生成实现

generate_example_matrix 使用三个对眼矩阵的蒙版控制三个矩阵相加
generate_example_vector 以重复的1，2，3进行repeat

import numpy as np
from functools import wraps
import time

def generate_example_matrix(h, w):
    _vs = (-1, 2, -1)
    _i = -1  # shift bits
    example_data = np.zeros([h, w],

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JintuZheng

关注关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python矩阵最优化_如何在python中优化矩阵的数学运算

weixin_42341237的博客

02-21

995

在您给出的简单示例中，使用for k in xrange(4):时，循环体只执行两次(如果r==s)，或者执行三次(如果r!=s)，并且下面的一个初始numpy实现慢了一个很大的因素。Numpy被优化为在长向量上执行计算，如果向量很短，开销可能会超过好处。(注意，在这个公式中，矩阵被分为不同的维度，并且不连续地索引，这只会使向量化实现的事情变得更复杂)。在import numpy as npdis...

并行矩阵乘法（C++ mpi 并行实现）

你的问题在于，读书太少而想得太多。

08-21

3508

矩阵乘法（C++ mpi 并行实现）

参与评论您还未登录，请先登录后发表或查看评论

openmpi+mpi4py+Linux服务器搭建python分布式环境

Mxiaobai1998的博客

04-05

3123

例如：mpirun -n 5 -hostfile hosts --allow-run-as-root -prefix /usr/local/openmpi python3 /home/Test.py（此时我选取了5个节点，当然相应的hosts文件也应该修改为只剩下前五行）例如： mpirun -n 3 -host master,worker01,worker02 --allow-run-as-root -prefix /usr/local/openmpi python3 /home/Test.py。

python矩阵乘法分治_numpy的大矩阵乘法优化

weixin_39887221的博客

12-10

312

I have to do a iterative calculation with large matrix:R(t) = M @ R(t-1), where M is n x n, and R is n x 1if I write this:for _ in range(iter_num):R = M @ RI suppose it will be very slow, because it h...

【Python高性能编程学习】第6讲矩阵、向量计算的优化

qq_54501547的博客

05-22

1092

本节主要讨论如何在Python中加速矩阵和向量的计算，以及如何考虑矩阵计算问题的优化方向。

高性能计算的矩阵乘法优化 - Python + OpenMP实现

晋图的非正常人类胡言乱语集合

04-02

4710

为什么你用进程并行不是线程并行？：由于Python解释器有GIL（全局解释器锁），在单进程的解释器上有线程安全锁，也就是说每次只能一个线程访问解释器，因此Python在语法上的多线程（multithreads）实现是不会提高并行性能的。这一点和C\C++上的编译级别的并行是不一样的，Python能做到的极限是多进程的解释级别并行。（上一节我实现的是，和老师课上是不一样的！！

并行计算与高性能算法-多线程编程-CUDA-OpenMP-MPI-分布式系统-GPU加速-并行排序-图算法-矩阵运算-机器学习并行化-中山大学2023春季课程-面向计算机科学与技术.zip

热门推荐

weixin_43973089的博客

04-19

1万+

高性能计算实验——矩阵乘法基于MPI的并行实现及优化1.实验目的1.1.通过MPI实现通用矩阵乘法1.2.基于MPI的通用矩阵乘法优化1.3.改造实验1成矩阵乘法库函数2.实验过程和核心代码2.1.通过MPI实现通用矩阵乘法2.2.通用矩阵乘法优化2.3.改造实验1成矩阵乘法库函数3.实验结果3.1.通过MPI实现通用矩阵乘法3.2.基于MPI的通用矩阵乘法优化3.3.改造实验1成矩阵乘法库函数4.实验感想 1.实验目的 1.1.通过MPI实现通用矩阵乘法熟练掌握MPI编程方法，并将通用矩阵乘法转为MPI

mpi学习日志(10):mpi4py实现简单并行矩阵乘法

ljhandlwt

07-20

3589

除了之前利用gather求π之外,我们就没有写过mpi程序的实例. 今天我们就尝试用mpi去写一个简单的并行矩阵乘法,虽说是并行,但不是使用经典的分治去处理,而只是简单地每个进程计算一个格子的值. 计算的式子是这样的,3*2的矩阵A乘上2*3的矩阵B,得到3*3的矩阵C. 这样的话,我们就需要9个进程去计算每个格子的值. 问题分析: 我们假设一开始只有进程0拥有矩阵A和B

【LDA】用MPI优化GibbsLDA++-0.2

xceman1997的专栏

06-21

8328

MPI 是“Message Passing Interface”的缩写，通常用来做单机多线程的并发编程。 1. GibbsLDA++中训练框架大致如下：循环：训练过程迭代N次 { 循环：遍历每一个训练样本（指doc） { 循环：遍历训练样本中的每一个word { 循环：gibbs采样过

python- numpy dot相乘与for loop 的时间优化

deep learning

08-31

520

import time a = np.random.rand(1000000) b = np.random.rand(1000000) tic = time.time() c = np.dot(a, b) toc = time.time() print(c) print('Vectorized version:'+ str(1000*(toc - tic)) + 'ms') c = 0 tic = time.time() for i in range(1000000): c += a[i]

python矩阵赋值提高速度_Numpy大规模矩阵运算优化加速技巧

weixin_39606137的博客

12-09

4791

如果对数组进行向量化运算，例如全体四则运算、矩阵乘法、求和、按指标求和等，一定要利用numpy的矩阵乘法dot和einsum。dot 二维矩阵乘法numpy的矩阵运算的王牌，做矩阵乘法的首选，优化到了极致。einsum 一般矩阵乘法仅次于dot，比numpy的sum、inner、outer、kron都要快一个或者几个数量级。夸张的是，einsum求和比向量四则运算都要快：12345a = np.r...

基于MPI的Warshall算法实现及其优化

zhaoyanlc的专栏

11-30

1807

基于MPI的Warshall算法实现及其优化1. Warshall算法分析1.1 Warshall算法(串行)分析Warshall算法是求解关系矩阵传递闭包的算法。输入：关系R的关系矩阵输出：关系R的传递闭包矩阵1.1.1 Warshall算法的串行算法分析Warshall算法的串行算法类C描述初始化矩阵；for (i=0;i生成传递闭包矩阵*/ fo

python并行计算之mpi4py的安装与基本使用

计算机辅助工程

07-04

1289

首先了解下mpi的基本使用方法，如果我们使用mpirun -n 3 python3 test.py这样的指令去运行一个程序，那么就会给每一个不同的test.py中发送一个互不相同的rank，这个rank的范围是从0开始数的。整数型的变量被成功的传递，当然，这里面其实还有个更加重要的意义是，rank为1的进程实际上是对rank为0的进程有时间序列上的依赖的，我们必须执行完rank 0中的任务，才能再执行rank 1中的任务，这个是有可能在实际的应用过程中被频繁使用的功能，尤其是任务之间互相有依赖的情况下。