单细胞转录组python和R语言的数据结构互相转换

探序基因

已于 2025-01-19 16:34:53 修改

阅读量367

点赞数 4

分类专栏：单细胞分析文章标签： python r语言数据结构

于 2025-01-10 12:11:16 首次发布

本文链接：https://blog.youkuaiyun.com/dongxj2111/article/details/145029220

版权

单细胞分析专栏收录该内容

9 篇文章

订阅专栏

探序基因肿瘤研究院整理

1. 将单细胞转录组的python数据结构的矩阵输出成txt文件：

单细胞转录组的python数据结构用h5ad格式的保存

import scanpy as sc
import numpy as np
import sys

h5adfile = sys.argv[1]
workdir = sys.argv[2]

adata = sc.read_h5ad(h5adfile)
matrix = adata.X.todense()
gene_names = np.array(adata.var_names)
cell_name = np.array(adata.obs_names)

matfile = "%s/expression_matrix.csv" % (workdir)
genefile = "%s/gene.txt" % (workdir)
ctfile = "%s/cellname.txt" % (workdir)

np.savetxt(matfile, matrix, delimiter='\t',fmt='%6.2f')

with open(genefile, 'w') as file:
for i in gene_names:
file.write(i + '\n')

with open(ctfile, 'w') as file:
for i in cell_types:
file.write(i + '\n')

注意：fmt='%6.2f' 表示只保留小数点后两位

2. 将txt文件读取到R语言中变成矩阵形式

Mat <- read.table("expression_matrix.csv",sep="\t") #注意矩阵的行和列的含义。一般python的是行为细胞，列为基因

gene <- readLines(con="/xxx/genename.txt")
cell <- readLines(con="/xxx/celltype.txt")

Mat <- apply(Mat,2,as.numeric)
Mat <- as(Mat,"dgCMatrix") #转换成稀疏矩阵的形式
rownames(Mat) <- cell
colnames(Mat) <- gene
Mat <- t(Mat)

得到矩阵Mat后，按照seurat包的流程，创建seurat数据结构进行后续分析就可以了。

3. 将R中的基因表达矩阵输出成txt

write.table(GCMat,file="/xxx/xxx.GCMat.txt",row.names = TRUE,col.names = TRUE,sep = "\t",quote = FALSE)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

探序基因

关注关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

剑桥大学2018年单细胞转录组分析教程

08-16

剑桥大学2018年单细胞转录组分析教程，包含数据过滤、序列比对、差异基因计算等R语言包、代码

R、python读取空间转录组的8种方式

生信小博士的博客

12-16

5300

本篇主分享如何使用python和R读取空转数据，主要使用scanpy stlearn seurat包。

参与评论您还未登录，请先登录后发表或查看评论

皮尔逊相关分析——代谢组与转录组联合-R语言

热门推荐

ziixiaoshenwang的博客

03-19

1万+

数据导入Rstudio dx <- read.csv("dx.csv",header = T,row.names = 1) gene <- read.csv("gene.csv",header = T,row.names = 1) 转换数据类型 gene1 <- as.matrix(gene) dx1 <- as.matrix(dx) 就某个基因与代谢物进行相关性分析 cor(dx1[(row.names='4-Pentenoic acid'),],gene1[(row.n

代码：DESeq2包做转录组RNAseq差异分析

weixin_53711955的博客

09-01

688

3.counts列表里的read counts需要为整数。因此在excel种用ROUND函数四舍五入取整。1.报错：Error: unexpected ')' in " )"2.数据选择read counts，注意不是FPKM。1.第一列选取gene_id，不然会有重复项。跟括号没关系，其实是代码忘加逗号。制作group.vsc。4.第一列不能有表头。遇到跑不通的多跑几次。

生信分析代谢通路可视化分析R工具包ggkegg的使用案例

zrc_xiaoguo的博客

12-20

2465

在此示例中，我们突出显示了由其 LFC 着色的有效边（KO），点大小对应于网络中的度数，并显示了有效 KO 名称的边缘标签。首先，我们加载必要的数据，这些数据可以从调查 KO 的数据集中获得，这些数据是从管道中获得的，例如 .在这里，我们选择了，节点根据降维图中的颜色着色，两个聚类中的标记都按指定的颜色（）着色。下面的示例将类似的反射应用于原始 KEGG 图谱，并突出显示在两种条件下都显示出统计学显着变化的基因，使用黄色外光，由 clusterProfiler 生成的组成，富集结果为。

单细胞转录组数据分析之 2-6.3 自动细胞注释（easybio）

10-29

easybio的出现对于简化单细胞转录组数据分析流程，提高细胞类型注释的准确性和效率具有重要意义。它不仅优化了现有工具的不足，还提供了一个集成化、功能全面的解决方案，极大地促进了单细胞研究的进展和生物信息学...

零基础入门转录组下游分析-数据处理（TCGA数据库）教程配套资源

02-20

零基础入门转录组下游分析——数据处理（TCGA数据库）教程配套资源压缩包内容包括如下：（1）输入数据（2）R脚本（3）输出结果 R脚本已经测试过可以一键全选后跑通，有基础的朋友可以直接生啃代码，基础薄弱的...

零基础入门转录组数据可视化-绘制差异热图（常规）

02-25

转录组数据可视化是生物信息学领域中的一项关键技术，它能够帮助研究者直观地理解和...学习者不仅可以学习到如何使用R语言绘制差异热图，还能在实践中加深对转录组数据理解，为进一步的生物信息学分析打下坚实的基础。

零基础入门转录组数据可视化-绘制差异火山图（常规）

02-24

本教程是转录组数据分析和数据可视化领域的入门级指南，旨在帮助初学者通过具体的实践操作快速掌握R语言在绘制差异火山图方面的应用，为进一步的生物信息学研究打下坚实的基础。通过本教程的学习，学习者可以有效地...

192.168.145.129

最新发布

cqsizhuang的博客

04-03

235

学习 SQL 基础：SQL 是与数据库交互的语言，掌握基本的 SQL 语句，如SELECT、INSERT、UPDATE、DELETE等，以及数据定义语言（DDL），如CREATE TABLE、ALTER TABLE、DROP TABLE等。研究数据库内核：如果对数据库的底层原理感兴趣，可以深入研究 PostgreSQL 的内核代码，了解其存储引擎、查询优化器、事务处理等模块的实现原理，这有助于更深入地理解数据库的运行机制，提升性能优化和故障排查的能力。安装完成后，熟悉数据库的启动、停止等操作。

安装ROS1（Noetic）

qq_23022733的博客

04-01

wget http://fishros.com/install -O fishros && . fishros

精通Python（66）

u013473447的专栏

03-31

908

假设有名为“2022年股票数据.xlsx”的 Excel 文件，里面有用股票代码命名的五个表单，分别是阿里巴巴（BABA）、百度（BIDU）、京东（JD）、亚马逊（AMZN）、甲骨文（ORCL）这五个公司2022年的股票数据，如果想加载亚马逊的股票数据，代码如下所示。如果要将该员工的职位修改为“架构师”，可以使用下面的代码。方法的参数是一个字符串，它代表了筛选数据使用的表达式，而且更符合 Python 程序员的使用习惯。的某一行，可以使用整数索引或我们设置的索引，例如取出员工编号为。

在显卡上训练大模型

weixin_44245188的博客

04-02

577

本文讲述了在昇腾910上面使用 LLaMA-13B 进行多机多卡模型训练；但目前在昇腾910上面，无论是基于MindSpore还是基于Pytorch进行大模型训练，总体都还不是很完善，就当前时间节点而言，经常会有一些奇奇怪怪的坑；虽然，从硬件层面上来说昇腾910具备训练大模型的能力，但是软件层面（无论是生态还是AI框架的易用性，对于业界最新大模型的支持和适配等）上还有很长的路要走。

Python 中的 `partial`：函数参数预设的艺术

蜗牛沐雨

04-01

973

在 Python 的functools模块中，partial是一个非常实用的工具，用于创建一个新的函数，该函数是原函数的一个“部分应用”版本。所谓“部分应用”，是指预先设定原函数的一部分参数，从而生成一个新的函数，这个新函数在被调用时，只需要提供剩余的参数即可。partial的存在，使得我们可以更加灵活地处理函数参数，特别是在需要将函数作为参数传递，或者需要对函数进行一定程度的定制化时，partial能够大显身手。partial。

YO-CSA-T：基于上下文与空间注意力的实时羽毛球轨迹追踪系统解析

hasakie的博客

03-31

957

本文围绕羽毛球轨迹实时追踪问题展开，提出了一种基于改进YOLOv8的检测网络（YO-CSA）和集成多模块的3D轨迹追踪系统。全文结构如下：摘要提出YO-CSA检测网络，结合上下文与空间注意力机制提升检测精度（mAP@0.75达90.43%）。构建实时3D轨迹追踪系统，集成检测、预测、补偿模块，帧率超130fps。引言背景：羽毛球高速飞行、易与环境混淆，传统检测方法精度不足。挑战：实时性、3D轨迹重建、遮挡补偿。贡献：轻量化检测网络、多维度时空约束策略、完整系统设计。相关工作。

Python Cookbook-4.22 在表达式中处理异常

weixin_52297428的博客

04-01

680

想写一个表达式，所以你无法直接用 ty/except语句，但你仍需要处理表达式可能抛出的异常。

python模拟商品管理

2302_81629118的博客

03-31

153

【代码】python模拟商品管理。

零基础玩转深度神经网络大模型：从Hello World到AI炼金术-详解版（含：Conda 全面使用指南）

前端与全栈技术领域探索者，分享实用干货与实战经验，助力开发者成长

04-01

693

技术点作用描述类比解释张量（Tensor）多维数据容器，支持GPU加速类似NumPy数组，但更强大自动微分自动计算梯度自动驾驶中的导航系统激活函数引入非线性变换神经元的"开关"机制Dropout防止过拟合的正则化方法随机让部分神经元"失明"交叉熵损失衡量预测与真实值的差异考试成绩的误差计算反向传播根据损失调整网络参数老师根据错误调整教学方式下一步建议尝试修改网络层数观察准确率变化（例如增加隐藏层）调整学习率体验不同收敛速度（例如尝试lr=0.01。