###python部分
加载读取稀疏矩阵的mmread和构建数据框的pandas
from scipy.io import mmread
import pandas as pd
import numpy as np
读取10X单细胞矩阵文件: matrix.mtx.gz(coo_matrix格式的sparse 矩阵) 、barcodes.tsv.gz (构成单细胞密集表达矩阵的列名,对应测序的细胞样本)、features.tsv.gz (构成单细胞密集表达矩阵的行名,是细胞的表达基因ID或symbolName)
_index = pd.read_csv("./features.tsv.gz", index_col=0,sep = '\t',header=None)
_index.index.name =None #把索引列的列名去掉
_col = pd.read_csv("./barcodes.tsv.gz", index_col=0,sep = '\t',header=None)
_col.index.name =None #把列名向量的名去掉
_data = mmread("./matrix.mtx.gz").todense()
将稀疏矩阵转换成DataFrame用pandas处理:
rna_count = pd.DataFrame(data=_data,index = _index.index,columns=_col.index)
print(rna_count .iloc[0:3,0:2])
print("gene_ID_len : "+str(rna_count .shape[0])) #获取表达矩阵基因长度

对pd类型的表达矩阵简单标准化处理:
rna_count = ( rn

该博客介绍了如何使用Python的`scipy.io`和`pandas`库读取和处理10X单细胞RNA测序数据,包括矩阵转换、标准化以及保存为sparse矩阵文件。同时,它也展示了R语言中使用`Matrix`包进行类似操作的方法,包括创建sparse矩阵和保存文件。
最低0.47元/天 解锁文章

1813

被折叠的 条评论
为什么被折叠?



