Tangram 项目教程
项目地址:https://gitcode.com/gh_mirrors/tang/Tangram
1. 项目介绍
Tangram 是一个基于 PyTorch 和 scanpy 的 Python 包,专门用于将单细胞(或单核)基因表达数据映射到空间基因表达数据上。Tangram 的主要功能是通过对齐共享基因的表达数据,将单细胞数据在空间上进行对齐。该工具适用于从相同解剖区域/组织类型收集的数据,理想情况下是来自生物学重复的数据,并且需要共享一组基因。
2. 项目快速启动
安装 Tangram
首先,确保你已经安装了 PyTorch 和 scanpy。然后,按照以下步骤安装 Tangram:
# 创建并激活 conda 环境
conda env create -f environment.yml
conda activate tangram-env
# 安装 tangram-sc
pip install tangram-sc
使用 Tangram
在 Jupyter Notebook 或 Python 脚本中导入 Tangram:
import tangram as tg
数据预处理
加载空间数据和单细胞数据(AnnData 格式),并进行预处理:
import scanpy as sc
# 加载数据
ad_sp = sc.read_h5ad('path_to_spatial_data.h5ad')
ad_sc = sc.read_h5ad('path_to_single_cell_data.h5ad')
# 预处理数据
tg.pp_adatas(ad_sc, ad_sp, genes=None)
数据映射
将单细胞数据映射到空间数据上:
# 映射数据
ad_map = tg.map_cells_to_space(ad_sc, ad_sp)
# 将基因表达投影到空间
ad_ge = tg.project_genes(ad_map, ad_sc)
3. 应用案例和最佳实践
应用案例
Tangram 可以用于多种应用场景,例如:
- 基因表达空间映射:将单细胞基因表达数据映射到空间数据上,以扩展基因表达的覆盖范围或纠正数据中的缺失值。
- 细胞类型空间分布分析:通过将单细胞数据中的细胞类型信息映射到空间数据上,分析不同细胞类型在组织中的空间分布。
最佳实践
- 选择训练基因:建议使用前 1000 个独特的标记基因作为训练基因,以确保映射的准确性。
- 使用 GPU:虽然 Tangram 可以在没有 GPU 的情况下运行,但使用 GPU 可以显著加速大规模数据的映射过程。
4. 典型生态项目
Tangram 可以与其他单细胞和空间基因表达分析工具结合使用,例如:
- scanpy:用于单细胞数据的预处理和分析。
- squidpy:用于空间数据的处理和可视化。
- Seurat:用于单细胞数据的整合和分析。
通过结合这些工具,可以构建一个完整的单细胞和空间基因表达数据分析流程。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考