利用SEJITS对矩阵幂核进行自动调优
1. 自动调优概述
自动调优器旨在为矩阵幂计算生成优化方案,包含计算代码和从矩阵派生的输入数据。调优器会遍历优化参数的可行范围,调用静态C代码对矩阵数据进行必要变换,并使用Asp基础设施从模板生成专门的计算代码并编译。每个候选方案都会通过循环运行,直到超过半秒,以准确测量其执行时间。找到的最快方案会以对象形式返回给应用程序,应用程序可在KSM求解器中使用该方案。
调优器的工作流程如下:
1. 确定要使用的常量k。
2. 遍历优化参数的可行范围。
3. 调用静态C代码对矩阵数据进行变换。
4. 使用Asp基础设施生成并编译专门的计算代码。
5. 对每个候选方案进行基准测试。
6. 返回最快方案的对象。
2. 矩阵幂核的优化
矩阵幂核的优化主要分为两类:更高效地存储数据以减少内存流量,以及重新排序计算以实现并行化或更好地利用缓存。具体优化方法如下表所示:
| 优化方法 | 类型 | 限制条件 |
| — | — | — |
| 线程分块 | 重新排序 | 无 |
| 显式缓存分块 | 重新排序 | k > 1 时有用 |
| 分块 | 大小缩减 | 无 |
| 对称表示 | 大小缩减 | A = AT;仅适用于方形分块 |
| 隐式缓存分块 | 重新排序 | k > 1;仅适用于方形分块 |
| 索引数组压缩 | 大小缩减 | 块必须足够小 |
以下是这些优化方法的详细介绍:
- 线程分块 :将矩阵行分配
超级会员免费看
订阅专栏 解锁全文
8025

被折叠的 条评论
为什么被折叠?



