[daily paper 7]2023 03 05 2011 109 CSX An Extended Compression Format for SpMV on Shared Memory Sys

最新推荐文章于 2025-12-04 16:02:12 发布

原创最新推荐文章于 2025-12-04 16:02:12 发布 · 413 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #矩阵 #线性代数

daily paper 专栏收录该内容

12 篇文章

订阅专栏

该论文提出了一种名为CSX的新格式，它扩展了CSR-DU格式，能识别并存储矩阵的行、列、主副对角线和分块结构。通过LLVM在线生成优化的矩阵乘法代码，尤其是在多步迭代中提高效率。虽然特征提取和预优化需要时间，但可以减少内存带宽限制对性能的影响。

论文链接

这篇论文讲了一种新的格式Compressed Sparse eXtended(CSX)，这种格式把矩阵在行、列、主副对角线、分块上的结构都识别了出来，然后分别用不同的方式存储。

CSX基于CSR-DU格式，这种格式记录的是列坐标之间的差，因此数值更小。如果都不超过256，那么可以用一个Byte存储。256而不是255是因为列坐标的差不为零，所以0可以代表256。一般处理器都有分支预测，所以这个判断并不影响速度。下面是图示：

在这里插入图片描述

CSX在CSR-DU的理念上进行了扩展，不仅探测行上的结构单元，还探测列、主副对角线、分块上的稠密单元。这些不同的探测方向被CSX用一套滑动窗口的框架统一了。

CSX的另一个理念是在进行多步迭代之前，使用LLVM在线生成CSR格式的稀疏矩阵的矩阵乘法计算代码。虽然这个编译优化是要占用不少时间的，但是由于很多迭代算法会一直使用同一个矩阵，所以有可能整体上降低计算时间。LLVM能优化什么呢？我觉得应该是稀疏矩阵上面常量的一些优化，比如乘2/4/8改成位移，以及一些连续元素的向量操作优化。既然可以现场编译，我觉得也可以JIT，这可能也是一个研究方向。

CSX统一探测的基础在于水平方向上的探测，如下图所示：

在这里插入图片描述