单细胞RNA-seq分析工具汇总
-
alevin-fry - [Rust] - https://github.com/COMBINE-lab/alevin-fry
快速、准确且节省内存的单细胞和单核 RNA-seq 数据预处理工具。
-
anchor - [Python] - https://github.com/yeolab/anchor
在数据中识别双峰、单峰和多峰特征的工具。
-
AnnSQL - [Python] - https://github.com/ArpiarSaundersLab/annsql
该 AnnSQL 包借助 DuckDB 进程内数据库引擎,支持在 AnnData 对象上进行基于 SQL 的查询。
-
ascend - [R 语言] - https://github.com/IMB-Computational-Genomics-Lab/ascend
ascend 是一个 R 包,包含快速、精简的分析函数,专为解决单细胞 RNA-seq 的统计挑战而优化。该包整合了新颖且成熟的方法,提供灵活的分析框架,可执行过滤、质量控制、标准化、降维、聚类、差异表达分析及多种绘图操作。
-
BayesPrism - [R 语言] - https://github.com/Danko-Lab/BayesPrism
基于统计边际化的贝叶斯细胞比例重建(BayesPrism):一种用于肿瘤微环境组成和基因表达的全贝叶斯推断方法。
-
bigSCale - [matlab] - https://github.com/dfajar2/bigSCale
用于大规模单细胞数据的分析框架。
-
bonvoyage - [Python] - https://github.com/yeolab/bonvoyage
将基于百分比的单位转换到二维空间,以从幅度和方向两方面评估分布变化。
-
bustools - [C++] - https://github.com/BUStools/bustools
一套用于处理 BUS 文件的单细胞 RNA-seq 预处理工具。bustools 可用于 barcode 纠错、UMI 合并、生成基因计数或转录本兼容性计数矩阵,还可用于许多其他任务。
-
ccRemover- [R 语言] - https://cran.r-project.org/package=ccRemover
从单细胞 RNA-seq 数据中去除细胞周期效应的工具,可识别并消除单细胞 RNA-seq 数据中的细胞周期影响。
-
celda- [R 语言] - https://bioconductor.org/packages/celda
一套贝叶斯层次模型及配套函数,用于对单细胞 RNA-seq 计数数据进行细胞和基因聚类。Celda 是一种贝叶斯模型,可利用单细胞 RNA-seq 数据将基因聚类为模块、将细胞聚类为亚群,该包还包含 DecontX 工具。
-
Cell_BLAST - [Python] - https://github.com/gao-lab/Cell_BLAST
用于单细胞 RNA-seq 数据查询和自动注释的类 BLAST 工具包。
-
CellCNN - [Python] - https://github.com/eiriniar/CellCnn
用于表型相关细胞亚群检测的表示学习工具。
-
CellRanger - [Linux] - https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger
一套用于处理 Chromium 单细胞 RNA-seq 输出的分析流程,可用于比对 reads、生成基因计数或转录本兼容性计数矩阵,以及进行聚类和基因表达分析等。使用该软件需在 10xgenomics 平台注册。
-
cellTree - [R 语言] - https://www.bioconductor.org/packages/3.3/bioc/html/cellTree.html
利用潜在狄利克雷分配模型对单细胞 RNA-seq 数据进行细胞群体分析和可视化的工具。
-
clusterExperiment - [R 语言] - https://github.com/epurdom/clusterExperiment
用于对单细胞测序数据进行多种聚类分析并比较结果的函数集,适用于与 SCONE 和 slingshot 工具配合使用。
-
Clustergrammer- [Python, JavaScript] - https://github.com/maayanlab/clustergrammer
基于网页的交互式热图工具,用于可视化和分析高维生物数据(包括单细胞 RNA-seq 数据)。Clustergrammer 可在 Jupyter 笔记本中作为交互式插件使用,且可通过 GitHub 和 NBviewer 分享。
-
Clustergrammer2- [Python, JavaScript] - https://github.com/ismms-himc/clustergrammer2
基于 WebGL 的交互式网页热图工具,用于可视化和分析单细胞高维数据及基于位置的生物数据。Clustergrammer 可在 Jupyter 笔记本中作为交互式插件使用,且可通过 GitHub 和 NBviewer 分享,详见案例研究。
-
CountClust - [R 语言] - https://github.com/kkdey/CountClust
用于对 RNA-seq 计数数据拟合成员等级模型(又称 “主题模型”)的函数。这些模型对聚类方法进行了扩展,允许每个细胞属于多个聚类 / 主题。
-
countsimQC - [R 语言] - https://www.bioconductor.org/packages/release/bioc/html/countsimQC.html
用于将一个或多个合成(如 RNA-seq)计数矩阵与真实计数矩阵的特征进行比较的工具,可用于验证合成数据集(可能基于真实数据生成)的有效性。
-
cyclum- [Python] - https://github.com/KChen-lab/cyclum
Cyclum 是一种新颖的自编码器方法,可在高维基因表达空间中表征环形轨迹。将 Cyclum 应用于去除细胞周期效应,能显著改善细胞亚群的划分,这对构建各类细胞图谱和研究肿瘤异质性非常有用(详见生物预印本平台 bioRxiv)。
-
CytoGuide- [C++, D3] - https://cyteguide.cytosplore.org/
CytoGuide:用于层次化单细胞分析的可视化指导工具。
-
DecontX- [R 语言] - https://bioconductor.org/packages/celda
DecontX 是一种贝叶斯方法,即使不借助空细胞条形码(基于液滴法的细胞识别所确定)的信息,也能自动估计并去除单细胞 RNA-seq 实验中单个细胞的 reads 污染(详见《DecontX:单细胞 RNA-seq 中环境 RNA 的去污染方法》)。该工具包含在 celda 包中。
-
DESCEND - [R 语言] - DESCEND 可对 UMI 单细胞 RNA-seq 计数数据进行解卷积,得到细胞间真实的基因表达分布。它能提供多种基于分布的统计量估计(5 种分布测量值及协变量(如批次或细胞大小)的系数)。
-
DeLorean - [R 语言] - https://github.com/jingshuw/descend
一种贝叶斯伪时间估计算法,利用高斯过程对基因表达谱进行建模,并能提供伪时间的完整后验分布。
-
dittoSeq - [R 语言] - https://github.com/dtm2451/dittoSeq
一个 Bioconductor 包,提供用户友好的单细胞和批量 RNA 测序可视化工具。默认支持色盲友好配色;对新手友好;高度可定制,功能强大到可生成 publication 级图表;通用性强,可直接处理 Seurat、SingleCellExperiment 和 SummarizedExperiment 对象,并能导入 edgeR DGElists 数据。
-
dropkick - [Python] - https://github.com/KenLauLab/dropkick
用于单细胞 RNA 测序数据的自动化细胞过滤工具。
-
dynamo - [Python] - https://github.com/aristoteleo/dynamo-release
结合单细胞 SLAM-seq 和多组学数据的表达动力学综合模型,可进行向量场重建和势能景观映射。
-
embeddr - [R 语言] - https://github.com/kieranrcampbell/embeddr
embeddr 利用高变异基因相关图和拉普拉斯特征映射构建基因空间的低维表示,然后通过主曲线拟合平滑的伪时间轨迹。
-
Falco- [AWS 云平台] - https://github.com/VCCRI/Falco/
Falco:一种基于云平台的快速、灵活的单细胞 RNA-seq 处理框架。
-
FastProject - [Python] - https://github.com/yoseflab/fastproject
用于单细胞表达数据低维投影的特征分析工具。
-
flotilla - [Python] - https://github.com/yeolab/flotilla
用于基因表达和可变剪接数据的可重复机器学习分析工具。
-
GPfates - [Python] - https://github.com/Teichlab/GPfates
利用高斯过程混合模型对转录细胞命运进行建模的工具。
-
GSEApy - [Python] - https://github.com/zqfang/GSEApy
GSEApy:Python 中的基因集富集分析工具。这是 GSEA 的 Python/Rust 实现,同时也是 Enrichr 的包装器,可用于 RNA-seq、ChIP-seq、微阵列数据的分析,能方便地进行 GO 富集分析并生成 publication 级图表。
-
HocusPocus - [R 语言] - https://github.com/joeburns06/hocuspocus
基于 PCA 的单细胞 RNA-seq 数据分析和绘图基础工作流。
-
HTSeq - [Python] - https://github.com/htseq/htseq
一个用于高通量测序(HTS)数据程序化分析的 Python 库。HTSeq 中一个常用组件是 htseq-count,这是一个用于量化批量和单细胞 RNA-seq(及类似实验)中基因表达的脚本。
-
IA-SVA - [R 语言] - https://github.com/UcarLab/iasva
迭代调整替代变量分析(IA-SVA)是一种统计框架,即使隐藏变异源与感兴趣的生物变量相关,也能揭示这些隐藏的变异源。IA-SVA 提供了灵活的方法:i)在调整所有已知因素的同时识别潜在的隐藏异质性因素;ii)检验该潜在隐藏因素对数据变异的解释显著性;iii)若显著,则将估计的因素作为下一次迭代中的已知因素,以进一步揭示更多隐藏因素。
-
ICGS - [Python] - https://github.com/nsalomonis/altanalyze
迭代聚类与指导基因选择(详见 Olsson 等人 2016 年《自然》论文)。可从多种单细胞转录组平台数据中识别离散、过渡和混合谱系状态。整合了 FASTQ 伪比对 / 定量(Kallisto)、差异表达、细胞类型预测及可选的细胞周期排除分析功能。还包含处理 BAM 和 10X Genomics 稀疏矩阵文件的专用方法,是 AltAnalyze 工具包的一部分,配套有多种可视化方法(如热图、t-SNE、剪接图谱、网络图形等),提供易用的图形界面和命令行界面。
-
InMoose - [Python] - https://github.com/epigenelabs/inmoose
nMoose 是一个整合的多组学开源环境,是一套用于组学数据分析的工具集,支持批次效应校正、队列质量控制、差异表达分析和共识聚类。
-
ivis - [Python/R 语言] - https://github.com/beringresearch/ivis
用于单细胞数据中保留结构的降维工具。
-
kallisto - [C++] - https://github.com/pachterlab/kallisto
kallisto 是一个用于从批量或单细胞 RNA-seq 数据(或更广泛地说,利用高通量测序 reads)量化转录本或基因丰度的程序。它基于伪比对技术,无需完整比对即可快速确定 reads 与目标序列的兼容性。
-
kb-python - [Python] - https://github.com/pachterlab/kb_python
kb-python 是一个用于处理单细胞 RNA-seq 数据的 Python 包,它封装了 kallisto | bustools 单细胞 RNA-seq 命令行工具,以统一多种处理流程。
-
knn-smoothing - [Python/R 语言 /matlab] - https://github.com/yanailab/knn-smoothing
该算法基于一个观察结果:在不同实验方案中,UMI 过滤后的单细胞 RNA-seq 数据所表现出的技术噪声非常接近泊松分布。平滑过程首先基于方差稳定和部分平滑的表达谱,以逐步方式识别每个细胞的最近邻,然后聚合它们的转录本计数。
-
mfa- [R 语言] - https://github.com/kieranrcampbell/mfa
利用贝叶斯因子分析混合模型对单细胞基因表达数据中的分支进行概率建模的工具。
-
M3Drop - [R 语言] - https://github.com/tallulandrews/M3Drop
基于米氏方程的单细胞 RNA-seq dropout 建模工具(Michaelis-Menten Modelling of Dropouts for scRNASeq)。
-
MetaCell - [R 语言,C++] - https://github.com/yelabucsf/scrna-parameter-estimation
通过将细胞相似性图划分为称为 “元细胞” 的小型同质细胞群,对单细胞 RNA-seq 数据进行分析的工具。
-
MIMOSCA - [Python] - https://github.com/asncd/MIMOSCA
用于设计和分析 pooled 单细胞 RNA-seq 扰动实验(Perturb-seq)的工具库。
-
Monocle - [R 语言] - http://cole-trapnell-lab.github.io/monocle-release/
用于单细胞 RNA-seq 数据的差异表达和时间序列分析工具。
-
Muscat - [R 语言] - https://github.com/HelenaLC/muscat
muscat(多样本多组单细胞 RNA-seq 分析工具)提供了多种方法,用于多样本、多组、多(细胞)亚群单细胞 RNA-seq 数据的差异状态(DS)分析。
-
netSmooth - [R 语言] - https://github.com/BIMSBbioinfo/netSmooth
netSmooth 是一种基于网络扩散的方法,它利用基因表达谱协方差结构的先验知识,对单细胞 RNA-seq 实验中的表达值进行平滑处理。研究表明,netSmooth 能改善不同细胞群、时间序列实验和癌症基因组学中单细胞 RNA-seq 实验的聚类结果。
-
NetworkInference- [Julia] - https://github.com/Tchanders/NetworkInference.jl
单细胞网络推断算法的快速实现工具(详见《基于多变量信息度量的单细胞基因调控网络推断》)。
-
nimfa - [Python] - https://github.com/ccshao/nimfa
Nimfa 是一个 Python 脚本库,包含多种已发表的矩阵分解算法、初始化方法、质量和性能度量,便于组合这些组件以生成新的分析策略。该库为矩阵分解算法和方法提供了统一且高效的接口。
-
novoSpaRc- [Python] - 仅利用单细胞 RNA-seq 数据预测单细胞空间位置的工具。无需现有的标记基因参考数据库,但如有该数据库,可显著提升性能(详见生物预印本平台 bioRxiv)。
-
OEFinder - [R 语言] - https://github.com/rajewsky-lab/novosparc
用于识别单细胞 RNA-seq 数据中排序效应基因的工具。OEFinder 的 Shiny 实现依赖于 shiny、shinyFiles、gdata 和 EBSeq 包。
-
OncoNEM - [R 语言] - https://bitbucket.org/edith_ross/onconem/src
OncoNEM 是一种概率方法,用于从单细胞的体细胞单核苷酸变异中推断肿瘤内进化谱系树。它能识别同质细胞亚群,推断其基因型,并构建描述它们进化关系的树。
-
outrigger - [Python] - https://github.com/YeoLab/outrigger
outrigger 是一个基于 junction reads 和利用图数据库创建的从头定制注释,计算 RNA-seq 数据可变剪接得分的程序,尤其适用于单细胞分析。
-
pcaReduce - [R 语言] - https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-016-0984-y
用于单细胞转录谱的层次聚类工具。
-
PyGMNormalize- [Python] - https://github.com/ficusss/PyGMNormalize
用于计数矩阵的 edgeR 标准化方法的 Python 实现。
-
RAPIDS-singlecell - [Python] - 一种利用 RAPIDS 加速的 GPU 工具,与 scverse 兼容,可高效处理单细胞数据,不仅能复现 Scanpy 的功能,还整合了 Squidpy 和 Decoupler 的部分功能。
-
RNAnorm -https://github.com/scverse/rapids_singlecell
[Python] - 常见 RNA-seq 标准化方法(CPM、FPKM、TPM、UQ、CUF、TMM、CTF)的 Python 实现。
-
rMATS - [Python] - http://rnaseq-mats.sourceforge.net/
RNA-seq 转录本可变剪接的多变量分析工具(RNA-Seq Multavariate Analysis of Transcript Splicing)。
-
robustSingleCell - [R 语言] - https://github.com/asmagen/robustSingleCell
robustSingleCell 是一个用于利用单细胞 RNA-seq 数据识别稳健细胞亚群,并通过相似性分析比较不同组织和实验模型中群体组成的流程(详见 Magen 等人 2019 年发表于生物预印本平台 bioRxiv 的论文)。
-
SAVER - [R 语言] - https://github.com/mohuangx/SAVER
SAVER(Single-cell Analysis Via Expression Recovery,通过表达恢复的单细胞分析)实现了一种正则化回归预测和经验贝叶斯方法,用于从嘈杂且稀疏的单细胞 RNA-seq 数据中恢复真实的基因表达谱。
-
SAKE - [R 语言] - https://github.com/naikai/sake
单细胞 RNA-seq 分析和聚类评估工具(Single-cell RNA-Seq Analysis and Clustering Evaluation)。
-
SCALE - [R 语言] - https://github.com/yuchaojiang/SCALE
SCALE 是一个用于单细胞等位基因表达分析的统计框架(Single Cell ALlelic Expression)。SCALE 能在等位基因水平上估计表征转录爆发过程的动力学参数,同时校正技术偏差。
-
Scanpy - [Python] - https://github.com/theislab/scanpy
Scanpy 提供计算高效的工具,可扩展至超大型数据集,并支持先进机器学习算法的轻松整合。
-
scbean - [Python] - https://github.com/jhu99/scbean
scbean 整合了一系列用于单细胞数据分析的模型,包括降维、批次效应去除、将注释良好的细胞类型标签从单细胞 RNA-seq 转移到单细胞 ATAC-seq 和空间转录组数据,以及对配对多模态单细胞数据的联合分析。
-
SCCAF- [Python] - https://github.com/SCCAF/sccaf
SCCAF(Single Cell Clustering Assessment Framework,单细胞聚类评估框架)是一种通过迭代应用聚类和机器学习方法,从单细胞数据中自动识别潜在细胞类型的工具(详见《从单细胞基因表达数据中发现潜在细胞类型》)。
-
schist - [Python] - https://github.com/dawe/schist
schist 是一个与 scanpy 兼容的 Python 库,它实现了嵌套随机块模型,用于识别单细胞实验中的细胞群。
-
Scillus- [R 语言] - https://github.com/xmc811/Scillus
Scillus 是一个 R 包装包,用于增强基于 Seurat 的单细胞 RNA-seq 数据的处理和可视化。
-
SCP - [R 语言] - https://github.com/zhanghao-njmu/SCP
SCP(Single Cell Pipeline,单细胞流程)是一个 R 包,提供一套全面的单细胞数据处理和下游分析工具。
-
scVI- [Python] - https://github.com/YosefLab/scVI
scVI 是一个即用型的可扩展框架,用于单细胞基因表达的概率表示和分析(支持批次校正、可视化、聚类和差异表达分析)(详见《用于单细胞转录组学的深度生成建模》)。
-
scLM- [R 语言] - https://github.com/QSong-WF/scLM
用于跨多个单细胞数据集自动检测共识基因聚类的工具。
-
scLVM - [R 语言] - https://github.com/PMBio/scLVM
scLVM 是一个用于单细胞 RNA-seq 数据的建模框架,可用于将观察到的异质性分解为不同来源,从而校正混杂的变异源。scLVM 主要设计用于处理细胞周期诱导的单细胞 RNA-seq 数据变异(细胞周期是变异性的主要来源)。
-
scTDA - [Python] - https://github.com/RabadanLab/scTDA
scTDA 是一个面向对象的 Python 库,用于高通量单细胞 RNA-seq 数据的拓扑数据分析,包括基于拓扑表示的单细胞 RNA-seq 数据预处理、分析和探索工具。
-
SCODE - [R 语言 / Julia] - https://github.com/hmatsu1226/SCODE
一种用于从分化过程中的单细胞 RNA-seq 数据中高效推断调控网络的算法。
-
SCORE- [R 语言] - https://github.com/wycwycpku/RSCORE
通过整合分子网络特征增强单细胞细胞状态推断的工具(详见《Enhancing single-cell cellular state inference by incorporating molecular network features》)。
-
SCOUP - [C++] - https://github.com/hmatsu1226/SCOUP
利用基于 Ornstein-Uhlenbeck 过程的概率模型,分析分化过程中的单细胞表达数据。
-
scran - [R 语言] - http://bioconductor.org/packages/scran
该包实现了多种单细胞 RNA-seq 数据的低水平分析方法,提供细胞特异性偏差的标准化、基于池的规模因子估计、细胞周期阶段分配以及高可变和显著相关基因的检测等功能。
-
SCRL- [C++] - https://github.com/SuntreeLi/SCRL
用于单细胞 RNA-seq 数据的基于网络嵌入的表示学习工具。
-
scruff- [R 语言] - https://bioconductor.org/packages/scruff
一个用于预处理 CEL-Seq 和 CEL-Seq2 协议生成的单细胞 RNA-seq FASTQ reads 的 R 包。它根据预定的细胞条形码列表对 reads 进行解复用,使用 Rsubread 将 reads 比对到参考基因组,并输出经过过滤的 UMI(唯一分子标识符)计数矩阵,供下游分析使用(详见《scruff:一个用于预处理单细胞 RNA-seq 数据的 R/Bioconductor 包》)。
-
scSemiProfiler - [Python] - https://github.com/mcgilldinglab/scSemiProfiler
一种用于经济高效的单细胞数据生成的深度生成 AI 工具。它有两个主要功能:1. 单细胞水平的批量解卷积 —— 利用来自相似组织的参考单细胞数据,从批量 RNA-seq 数据生成单细胞基因表达谱;2. 半谱分析 —— 利用深度生成 AI,以原始成本的 1/10 到 1/3 生成一个队列的单细胞数据。该功能将来自所有队列样本的较便宜的批量 RNA-seq 数据和由主动学习模块选择的代表性样本的单细胞 RNA-seq 数据作为输入。
-
scSVA - [R 语言] - https://github.com/klarman-cell-observatory/scSVA
一个用于大规模单细胞组学数据(2-10^9 个细胞)的交互式二维和三维可视化与探索的 R 包。scSVA 支持在云端通过容器化工具进行交互式分析,包含优化的扩散映射实现和多线程三维力导向布局(ForceAtlas2)。
-
scTCRseq - [Python] - https://github.com/ElementoLab/scTCRseq
从单细胞 RNA-seq 数据中映射 T 细胞受体(TCR)库的工具。
-
Seurat - [R 语言] - http://www.satijalab.org/seurat.html
该工具包含易于使用的常用分析技术实现,包括高可变基因识别、降维(PCA、ICA、t-SNE)、标准无监督聚类算法(密度聚类、层次聚类、k 均值聚类),以及差异表达基因和标记基因的发现。
-
SIMLR - [R 语言,matlab] - https://github.com/BatzoglouLabSU/SIMLR
SIMLR(Single-cell Interpretation via Multi-kernel LeaRning,基于多核学习的单细胞解析)从数据中学习合适的距离度量,用于降维、聚类和可视化。与现有降维方法相比,SIMLR 能更准确地分离单细胞数据集中的已知亚群。
-
sincell - [R 语言] - http://bioconductor.org/packages/sincell
从单细胞数据评估细胞状态层次结构的现有计算方法,可形式化为一个通用工作流,包括:i)评估细胞间相似性的度量(可结合或不结合降维步骤);ii)构建图的算法(可选地利用细胞聚类步骤)。sincell R 包实现了一个方法工具箱,支持在该框架下进行灵活的工作流分析。
-
sincera - [R 语言] - https://research.cchmc.org/pbge/sincera.html
基于 R 的单细胞分析流程,包括聚类和可视化。
-
SingleSplice- [R 语言,perl, C++] - https://github.com/jw156605/SingleSplice
一种用于检测单细胞群体中可变剪接生物变异的工具(详见 Welch 等人 2016 年的论文)。
-
singlet - [Python] - https://github.com/iosonofabio/singlet
结合表型的单细胞 RNA-seq 分析工具。
-
soupX - [R 语言] - https://github.com/constantAmateur/SoupX
一个用于估计和去除基于液滴的单细胞 RNA-seq 数据中游离 mRNA 污染的 R 包。该包旨在解决一个问题:所有基于液滴的单细胞 RNA-seq 实验都会捕获输入溶液中的环境 mRNA,而非仅捕获细胞特异性 mRNA。
-
SPRING - [matlab, javascript, Python] - https://github.com/AllonKleinLab/SPRING
SPRING 是一套预处理脚本和基于网页浏览器的工具,用于高维数据的可视化和交互。SPRING 最初是为单细胞 RNA-seq 数据开发的,但也可更广泛地应用于其他数据。
-
scTOP - [Python] - https://github.com/Emergent-Behaviors-in-Biology/scTOP
单细胞类型序参量(Single-cell type order parameters)。这是一种受物理学启发的单细胞 RNA-seq 数据处理和细胞命运识别方法,其灵感来源于表观遗传景观理论。
-
trendsceek- [R 语言] -https://github.com/edsgard/trendsceek
用于识别单细胞基因表达数据中空间表达趋势的工具。
-
VISION - https://www.biorxiv.org/content/early/2018/09/28/403055
一种用于以自动化、无偏且可扩展的方式注释单细胞 RNA-seq 数据中变异来源的工具。它能生成交互式、低延迟且功能丰富的网页报告,便于研究人员之间共享。
-
zUMIs- [R 语言,perl, shell] - https://github.com/sdparekh/zUMIs
zUMIs:一种用于处理带 UMI 的 RNA-seq 数据的快速灵活流程。
-
STAR - [C/C++] - https://github.com/alexdobin/STAR
一种用于 RNA-seq 数据的剪接感知比对工具,能以高准确度和速度将 reads 比对到参考基因组。
质量控制
-
Cellity - [R 语言] - https://github.com/teichlab/cellity
利用 R 语言对单细胞 RNA-seq 数据中的低质量细胞进行分类的工具。
-
gene_network_evaluation - [Python] - https://github.com/EngreitzLab/gene_network_evaluation/
一个灵活的框架,用于评估从单细胞基因组数据中推断的基因程序的合理性。该评估分为多个主题,如拟合优度(解释数据的能力)、共调控、机制相互作用等。在每个主题下,通过适当的统计检验实现多种评估任务。
-
scDiagnostics - [R 语言] - https://github.com/ccb-hms/scDiagnostics
专为评估单细胞 RNA-seq 数据中注释转移准确性而设计的包。scDiagnostics 提供一套全面的诊断工具,用于评估查询数据集和参考数据集之间的兼容性,帮助识别和减轻错误注释的风险。
-
SCONE - [R 语言] - https://github.com/YosefLab/scone
SCONE(Single-Cell Overview of Normalized Expression,单细胞标准化表达概览)是一个用于单细胞 RNA-seq 数据质量控制和标准化的包。这个数据驱动的框架利用表达数据的汇总统计来评估标准化工作流的有效性。
-
SinQC - [R 语言] - http://www.morgridge.net/SinQC.html
一种用于控制单细胞 RNA-seq 数据质量的方法和工具。
-
scater - [R 语言] - https://bioconductor.org/packages/release/bioc/html/scater.html
Scater 专注于数据的质量控制、可视化和预处理工具,填补了原始 RNA-seq 计数或每百万转录本(TPM)数据与更专注的下游建模工具(如 monocle、scLVM、SCDE、edgeR、limma 等)之间的空白。
基因调控网络识别
-
scPRINT- [Python] -
scPRINT 在 5000 万个细胞上进行预训练,可从单细胞 RNA-seq 数据中预测稳健的基因网络(详见《scPRINT:在 5000 万个细胞上预训练实现稳健的基因网络预测》)。
-
Dictys- [Python] - Dictys 从单细胞 RNA-seq 和单细胞 ATAC-seq 数据集中重建并分析特定背景下的动态基因调控网络(详见《Dictys:动态基因调控网络解析单细胞多组学的发育连续体》)。
-
Normalisr- [Python, Shell] - Normalisr 从 Perturb-seq 和其他单细胞 CRISPR 筛选中推断基因调控网络。其标准化和统计关联测试框架还统一了单细胞差异表达和共表达分析(详见《Normalisr:通过单细胞标准化和关联测试统一 CRISPR 筛选和基因共表达分析》)。
-
SCENIC- [R 语言] - SCENIC 是一个从单细胞 RNA-seq 数据中推断基因调控网络和细胞类型的 R 包(详见《SCENIC:单细胞调控网络推断和聚类》)。
-
SCENIC± [Python] - SCENIC + 是一个 Python 包,用于利用单细胞 RNA-seq 和单细胞 ATAC-seq 的联合数据或单独数据构建基因调控网络(详见《SCENIC+:单细胞多组学的增强子和基因调控网络推断》)。
-
SINCERITIES- [R 语言 / Matlab] - 从带时间戳的单细胞转录表达谱中推断基因调控网络的工具。
免疫受体分析
-
APackOfTheClones- [R 语言] - https://github.com/Qile0317/APackOfTheClones
APackOfTheClones:利用圆形打包图可视化克隆扩增的工具。
-
DALI - [R 语言] - https://github.com/vibscc/DALI
DALI(Diversity Analysis Interface,多样性分析界面)是一个在 Seurat 生态系统中实现 TCR 和 BCR 分析的工具,其功能也通过交互式 Shiny 应用程序展示。
-
Ibex- [R 语言] - https://github.com/BorchLab/Ibex
Ibex:用于单细胞 BCR 测序的变分自编码器。
-
Scirpy- [Python] - https://github.com/icbi-lab/scirpy
一个用于分析单细胞 T 细胞受体(TCR)测序数据的 Scanpy 扩展工具。
-
scRepertoire- [R 语言] - https://github.com/BorchLab/scRepertoire
scRepertoire 2:用于单细胞免疫谱分析的增强型高效工具包。
-
TraCeR - [Python] - http://github.com/teichlab/tracer
从单细胞 RNA-seq 数据中重建 T 细胞受体序列的工具。
-
TRAPeS - [Python, C++] - https://github.com/yoseflab/trapes
TRAPeS(TCR Reconstruction Algorithm for Paired-End Single-cell,用于双端单细胞的 TCR 重建算法),一种利用短双端单细胞 RNA-seq 数据重建 T 细胞受体(TCR)的软件。
-
TRUST4- [bash] - https://github.com/liulab-dfci/TRUST4
TRUST4:从批量和单细胞 RNA-seq 数据中重建免疫受体库的工具。
标记基因和差异基因表达识别
-
GPseudoClust - [Python] - https://github.com/magStra/GPseudoClust
用于对伪时间排序数据中的基因进行聚类,并量化由伪时间排序不确定性引起的聚类分配不确定性的软件。
-
GiniClust - [Python/R 语言] - https://github.com/lanjiangboston/GiniClust
GiniClust 是一种在 Python 和 R 语言中实现的聚类方法,用于从大规模单细胞基因表达数据中检测稀有细胞类型。GiniClust 可应用于来自不同平台的数据集,如多重 qPCR 数据、传统单细胞 RNA-seq 或新兴的基于 UMI 的单细胞 RNA-seq(如 inDrops 和 Drop-seq)。
-
DECENT - [R 语言] - 单细胞 RNA-seq 数据的独特特征催生了新的差异表达(DE)分析方法。然而,现有的单细胞 RNA-seq 差异表达方法中,很少有能估计 dropout 前分子数量的,因此无法明确区分技术零值和生物零值。我们开发了 DECENT,一种用于单细胞 RNA-seq 数据的差异表达方法,通过估计 dropout 前的分子数量来校正捕获效率的不完善。
-
MetaMarkers- [R 语言] - https://github.com/cz-ye/DECENT
MetaMarkers 提出了一种简单的方法,在保持数据集独立性的同时,整合多个数据集的标记信息,从单细胞数据中识别稳健的标记特征(详见《需要多少个标记基因才能稳健地确定细胞类型?》)。
-
Phenotype Cover- [Python] - https://github.com/euxhenh/phenotype-cover
提供两种用于标记基因选择的算法(G-PC、CEM-PC),详见《用于判别性标记选择的多集合覆盖方法》。大多数标记选择方法侧重于差异表达(DE)分析,尽管这类方法在处理具有少量非重叠标记集的数据时效果较好,但在考虑多种细胞类型和组织的大型图谱规模数据中并不适用。为解决这一问题,我们定义了标记选择的表型覆盖(PC)问题,并提出了能提高标记集判别能力的算法。
-
scDD - [R 语言] - https://github.com/kdkorthauer/scDD
scDD (Single-Cell Differential Distributions,单细胞差异分布)是一个用于识别感兴趣的生物组之间具有不同表达模式的基因的框架。除了传统的差异表达外,它还能检测比均值偏移更复杂和细微的差异。
-
SCDE - [R 语言] - https://github.com/hms-dbmi/scde
利用误差模型和基于过度分散的重要基因集识别进行差异表达分析的工具。
-
SCMarker- [R 语言] - https://github.com/KChen-lab/SCMarker
SCMarker 是一种从单细胞 RNA-seq 数据中进行从头标记基因集选择的方法,以实现更好的聚类 / 细胞分型结果(详见《SCMarker:用于单细胞转录组分析的从头标记基因选择》)。
-
SEPA - [R 语言] - https://github.com/zji90/SEPA
SEPA 提供便捷的函数,用于将基因分配到不同的基因表达模式(如恒定表达、单调递增、先增后减等),然后对具有相同或相似模式的基因进行 GO 富集分析,以研究其功能作用。
-
switchde - [R 语言] - http://github.com/kieranrcampbell/switchde
跨伪时间的差异表达分析工具,可识别在单细胞轨迹中表现出开关式上调或下调的基因,以及调控发生的轨迹位置。
细胞聚类(Cell clustering)
- BackSPIN- [Python] - https://github.com/linnarsson-lab/BackSPIN
考虑到单细胞RNA-seq实验的内在特征而开发的Biclustering算法。
-
dropClust- [R/Python] -https://github.com/debsin/dropClust
超大scRNA-seq数据的高效聚类。
-
SC 3- [R] - https://github.com/hemberg-lab/sc3
SC 3是用于来自单细胞RNA-Seq实验的细胞的无监督聚类的工具。