sparse matrix(稀疏矩阵)

最新推荐文章于 2025-04-26 21:02:02 发布

原创最新推荐文章于 2025-04-26 21:02:02 发布 · 1.3w 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #数据结构 #matrix #自然语言处理

数据结构与算法专栏收录该内容

2 篇文章

订阅专栏

本文介绍了在自然语言处理中，特别是在使用sklearn进行tf-idf等算法时，如何利用稀疏矩阵解决内存不足的问题。文章详细解释了稀疏矩阵的概念，并通过具体的例子展示了其在实际应用中的优势。

sparse matrix(稀疏矩阵)

下文大致参考sparse_matrix-维基百科

最近在接触sklearn 进行自然语言处理的时候，发现做类似tf-idf等等这样的算法时候，很多时候自然语言得出来的矩阵里面，是含有很多个0这样的元素的。这时候如果用一个大矩阵去处理数据，很容易造成内存不足（我处理100多万份短文本，分词后转化为矩阵明显是不足的），经过我研究，sklearn是默认使用一种sparse matrix来降低内存的使用量。

sparse matrix大多使用在一个含有很多0的矩阵中，在这样的矩阵中转化为sparse matrix是十分节省内存的。sparse matrix只记录不含0的矩阵元素。

sparse matrix 定义

一个m*n的矩阵M，可以直接用3个一维矩阵矩阵表示（A, IA, JA）,现在用NNA标记为M矩阵中不是0的数量

1.一维矩阵A长度等于NNA,矩阵A保存着所有M矩阵中非0元素，顺序按照M矩阵从左到右，从上到下顺序。
2.一维矩阵IA
- IA[0]=0
- IA[i] = IA[i-1]+在i-1行上所有非0元素的个数
3.一维矩阵JA,对应A矩阵中每个元素所对应行的列号

例如：
$例子$
是一个4x4的带有4个非0的矩阵
这个矩阵能用下列3个一维矩阵表示

A = [ 5 8 3 6 ]
IA = [ 0 0 2 3 4 ]
JA = [ 0 1 2 1 ]

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。