数值算法碎片化与并行图像处理库技术解析
数值算法碎片化研究
碎片化矩阵乘法
在矩阵乘法中,对 1000×1000 碎片化矩阵乘法的执行时间和加速比进行了研究,并与顺序程序的执行时间(360,87 e - 6 s)作比较。具体数据如下表所示:
| 碎片数量 | 碎片大小 | 1 PE 执行时间 | 1 PE 加速比 | 2 PE 执行时间 | 2 PE 加速比 | 4 PE 执行时间 | 4 PE 加速比 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 4 | 500×500 | 356,99 | 1.01 | 180,26 | 2.00 | 63,51 | 5.68 |
| 16 | 250×250 | 302,36 | 1.19 | 167,54 | 2.15 | 55,79 | 6.47 |
| 25 | 200×200 | 294,64 | 1.22 | 159,27 | 2.27 | 55,09 | 6.55 |
| 100 | 100×100 | 303,77 | 1.19 | 156,68 | 2.30 | 55,22 | 6.54 |
| 400 | 50×50 | 306,09 | 1.18 | 163,28 | 2.21 | 54,69 | 6.60 |
| 1600 | 25×25 | 324,07 | 1.11 | 182,81 | 1.97 | 54,71 | 6.60 |
从这些数据中可以推测,随着碎片数量的增加和碎片大小的减小,在多处理器环境下(2 PE 和 4 PE)加速比有明显提升,但在单处