稀疏矩阵存储格式

稀疏矩阵存储格式

当运算数据数量很大且稀疏的时候,使用稀疏的数据存储格式可以节省大量的存储空间且加快计算速度。本文介绍三种比较常见的稀疏矩阵表示方式:COO(Coordinate Format坐标表示),CSR(Compressed Sparse Row行压缩),CSC(Compressed Sparse Column列压缩)。

  • 1、COO:Coordinate Format COO格式使用行下标、列下标和数据值三元组来表示每个非零元素,所以总共需要保存非零元素个数的三倍个值
>>> import scipy
>>> import numpy as np
>>> row_idx = np.array([0,0,1,2,2,3,3,3])
>>> col_idx = np.array([0,3,1,2,3,0,1,3])
>>> values = np.array([4,2,1,5,7,6,3,8])
>>> coo_mat = scipy.sparse.coo_matrix((values, (row_idx , col_idx)),shape = (4,4)).toarray()
>>> coo_mat
array([[4, 0, 0, 2],
       [0, 1, 0, 0],
       [0, 0, 5, 7],
       [6, 3, 0, 8]])

row_idx 和col_idx 指定values 中每个数据对应的行下标和列下标。

  • 2、 CSR:Compressed Sparse Row CSR格式的列下标向量和数据值向量与COO格式类似,在行下标表示上做了压缩。根据数据的排列规则,只需要指定在哪个数据换到下一行就行。
>>> col_idx = np.array([0,3,1,2,3,0,1,3])
>>> values = np.array([4,2,1,5,7,6,3,8])
 >>> row_ptr = np.array([0,2,3,5,8])
>>> csr_mat = scipy.sparse.csr_matrix((values,col_idx, row_ptr),shape=(4,4)).toarray()
>>> csr_mat
array([[4, 0, 0, 2],
       [0, 1, 0, 0],
       [0, 0, 5, 7],
       [6, 3, 0, 8]]) 

非零数据按行顺序排列

把非零数据排成一列,并从0开始建立索引,row_ptr指定在哪个索引位置进行换行。例如,稀疏矩阵的第二行是1,那么就在索引2处进行切割。

数据按行进行划分

  • 3、 CSC:Compressed Sparse Column CSC格式的行下标和数据值向量与COO格式类似,在列下标上做了压缩。根据数据的排列规则,只需要指定在哪个数据换到下一列就行。
>>> values = np.array([4,6,1,3,5,2,7,8])
>>> row_idx = np.array([0,3,1,3,2,0,2,3])
>>> col_ptr = np.array([0,2,4,5,8])
>>> csc_mat = scipy.sparse.csc_matrix((values,row_idx,col_ptr),shape=(4,4)).toarray()
>>> csc_mat
array([[4, 0, 0, 2],
       [0, 1, 0, 0],
       [0, 0, 5, 7],
       [6, 3, 0, 8]])

非零数据按列顺序排列

把非零数据排成一列,并从0开始建立索引,col_ptr指定在哪个索引位置进行换行。例如,稀疏矩阵的第二列是1、3,那么就在索引2处进行切割。注意到CSC的数据是按列顺序排列,和CSR有所不同

数据按列进行划分

  • 4、其他还有一些比较特殊的稀疏矩阵表示形式,都是根据稀疏矩阵的特性进行压缩,例如对称矩阵,块矩阵等等。在此不进一步讨论。
### BELL Sparse Matrix Storage Format #### 定义 BELL(Blocked ELLPACK)是一种用于存储稀疏矩阵的数据结构,它是ELL(ELLPACK)格式的一种扩展形式。相比于传统的ELL格式,BELL通过分块的方式提高了数据访问的局部性和并行计算效率[^3]。具体来说,BELL将稀疏矩阵划分为固定大小的小块,并按照行优先顺序排列这些小块中的非零元素。 #### 数据结构描述 在一个典型的BELL格式中,主要包含以下几个部分: 1. **Values Array**: 存储所有非零元素的实际数值。 2. **Column Indices Array**: 对应于`Values Array`中每个非零元素所在的列索引。 3. **Row Pointers Array**: 表示每一块起始位置在`Values Array`中的偏移量。 4. **Block Size Parameter**: 指定每一行被划分成多少个小块以及每个小块的最大宽度。 这种设计使得即使某些区域内的实际填充密度低于预设阈值时仍能保持较好的性能表现[^4]。 #### 使用方法与实现方式 以下是基于Python语言的一个简单例子来展示如何创建和操作采用BELL格式表示法下的稀疏矩阵: ```python import numpy as np def create_bell_matrix(matrix, block_size=4): max_cols_per_block = int(np.ceil(max(len(row) for row in matrix)/block_size)) values = [] col_indices = [] row_pointers = [0] current_index = 0 for i,row in enumerate(matrix): padded_row = list(row)+[0]*(max_cols_per_block*block_size-len(row)) # Padding zeroes chunks=[padded_row[j:j+block_size]for j in range(0,len(padded_row),block_size)] for chunk in chunks: non_zeroes_in_chunk=[val!=0for val inchunk] if any(non_zeroes_in_chunk): values.extend([chunk[k]if non_zeroes_in_chunk[k]==True else 0forkinrange(block_size)]) col_indices.extend(range(i,i+len(chunk))) current_index += sum(non_zeroes_in_chunk) row_pointers.append(current_index) return np.array(values,dtype=float),np.array(col_indices,dtype=int),np.array(row_pointers,dtype=int) example_sparse_matrix=[ [3,-1], [-7,8,5], [], [2]] values,col_indices,row_pointers=create_bell_matrix(example_sparse_matrix,block_size=2) print("Values:",values) print("Col indices:",col_indices) print("Row pointers:",row_pointers) ``` 此代码片段展示了如何构建一个基本版本的BELL格式转换器函数 `create_bell_matrix()` ,它接受任意二维列表作为输入参数,并返回三个数组分别代表该稀疏矩阵经过处理后的value array,column index array 和row pointer array 。注意这里为了简化演示过程忽略了边界条件检测等问题,在真实应用场景下还需要进一步完善错误处理机制等内容[^5]。 #### 性能优势 相比其他常见的压缩技术比如CSR/ CSC等,BELL特别适合那些具有较高规律性的大规模科学工程领域问题求解场景因为其独特的区块化特性可以显著减少内存带宽消耗同时提升缓存命中率从而达到更好的整体执行效果.[^6]
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值