python和R写出表达矩阵为稀疏矩阵matrix.mtx.gz的方法

最新推荐文章于 2024-04-02 13:57:38 发布

原创

最新推荐文章于 2024-04-02 13:57:38 发布 · 3.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #矩阵 #r语言

该博客介绍了如何使用Python的`scipy.io`和`pandas`库读取和处理10X单细胞RNA测序数据，包括矩阵转换、标准化以及保存为sparse矩阵文件。同时，它也展示了R语言中使用`Matrix`包进行类似操作的方法，包括创建sparse矩阵和保存文件。

###python部分
加载读取稀疏矩阵的mmread和构建数据框的pandas

from scipy.io import mmread
import pandas as pd
import numpy as np

读取10X单细胞矩阵文件： matrix.mtx.gz（coo_matrix格式的sparse 矩阵）、barcodes.tsv.gz （构成单细胞密集表达矩阵的列名，对应测序的细胞样本）、features.tsv.gz （构成单细胞密集表达矩阵的行名，是细胞的表达基因ID或symbolName）

_index = pd.read_csv("./features.tsv.gz", index_col=0,sep = '\t',header=None)
_index.index.name =None #把索引列的列名去掉
_col   = pd.read_csv("./barcodes.tsv.gz", index_col=0,sep = '\t',header=None)
_col.index.name =None #把列名向量的名去掉
_data  = mmread("./matrix.mtx.gz").todense()

将稀疏矩阵转换成DataFrame用pandas处理：

rna_count = pd.DataFrame(data=_data,index = _index.index,columns=_col.index)
print(rna_count .iloc[0:3,0:2])
print("gene_ID_len : "+str(rna_count .shape[0]))  #获取表达矩阵基因长度