【单细胞】sc.pp.normalize_per_cell和sc.pp.normalize_total()函数

文章介绍了Scanpy库中的sc.pp.normalize_per_cell()和sc.pp.normalize_total()函数,这两个函数用于对细胞的计数矩阵进行归一化操作。在最新版本中,normalize_total()替代了normalize_per_cell()。示例展示了如何使用这些函数以及log1p()进行数据处理。归一化计算涉及对每个细胞的所有基因计数值求和,然后基于这些总和进行调整,以达到标准化的目的。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 功能

  sc.pp.normalize_per_cell()和sc.pp.normalize_total()功能是一致的。在最新的Scanpy中sc.pp.normalize_total()替代了sc.pp.normalize_per_cell(),具体的情况见参考文献【2】。这个函数的功能就是对细胞的计数矩阵进行归一化操作。

2 例子

import numpy as np
import scanpy as sc

x = np.array([[1, 2, 3],
              [2, 3, 4],
              [1, 1, 3],
              [0, 2, 10]])
adata = sc.AnnData(x)
adata.raw = adata.copy()
print(np.dot(np.diag(ff), x))
[[1.25       2.5        3.75      ]
 [1.66666667 2.5        3.33333333]
 [1.5        1.5        4.5       ]
 [0.         1.25       6.25      ]]
sc.pp.normalize_per_cell(adata)
print(adata.X)
[[1.25       2.5        3.75      ]
 [1.66666667 2.5        3.33333333]
 [1.5        1.5        4.5       ]
 [0.         1.25       6.25      ]]
sc.pp.normalize_total(adata)
print(adata.X)
[[1.25       2.5        3.75      ]
 [1.66666667 2.5        3.33333333]
 [1.5        1.5        4.5       ]
 [0.         1.25       6.25      ]]
 # 可以看到两个函数的输出是相同的

sc.pp.log1p(adata)
print(adata.X)
[[0.8109302  1.2527629  1.5581446 ]
 [0.98082924 1.2527629  1.466337  ]
 [0.91629076 0.91629076 1.704748  ]
 [0.         0.8109302  1.9810015 ]]
# 最终的计算如下公式所示

接下来看具体的归一化是如何计算的
在这里插入图片描述
上述公式中 X X X表示计数矩阵, i j ij ij分别表示行列, m m m表示计数中值, O O O也表示列。下面介绍具体的Python实现代码:

# 每个细胞所有基因的计数值的和
np.sum(x, axis=1)
# 每个细胞的计数中值
np.median(np.sum(x, axis=1))
# 上面公式的计算部分
ff = np.median(np.sum(x, axis=1)) / np.sum(x, axis=1)
np.dot(np.diag(ff), x)
# 取log
sc.pp.log1p(adata)

3 参考文献

[1]sc.pp.normalize_per_cell和sc.pp.normalize_total()
[2]scanpy.pp.normalize_total

<think>好的,用户现在想用Python中的生物领域细胞注释包来处理单细胞测序数据,需要示例代码。之前用户的问题是关于R语言中Seurat对象的project参数设置,现在转向Python的细胞注释,可能需要了解常用的Python包以及具体的使用步骤。首先,我需要回忆Python中用于单细胞分析的库。Scanpy是一个主要的工具,类似于R的Seurat,常用于预处理分析。细胞注释方面,scanpy本身可能没有直接的注释功能,但可以结合其他工具,比如scCATCH、SingleR的Python实现,或者celltypist。此外,用户提到的引用中提到了kb-python,但那是数据处理工具,可能不涉及注释部分。引用[2]中提到细胞类型注释是头疼的问题,但示例代码可能没有,所以需要参考其他资源。 接下来,确定常用的细胞注释方法。手动注释是基于已知标记基因,自动注释可以使用参考数据集或机器学习模型。例如,celltypist是一个基于机器学习的工具,支持自动注释。需要检查是否有Python包可用。比如,CellTypist有Python接口,可以安装使用。然后,考虑如何组织示例代码。首先加载数据,预处理,然后进行注释。使用scanpy进行数据加载预处理,然后应用celltypist进行注释。需要确保代码步骤清晰,并解释每个部分的作用。同时,要提供安装命令,如pip installscanpy celltypist。另外,用户可能需要不同的注释方法,比如手动自动,所以示例代码应包括两种方式。手动注释需要标记基因列表,自动注释需要加载模型。需要验证这些步骤是否正确,比如在scanpy中如何添加注释,使用CellTypist的predict函数。 还要注意引用的问题,用户提供的引用中,引用[2]提到细胞注释的困难,引用[3]关于kb-python可能不相关,但引用[1]提到Python处理scRNA-seq,所以可能引用[1][2]来支持回答。例如,在预处理步骤引用[1],在注释困难部分引用[2]。 最后,生成相关问题,比如安装问题、方法比较、结果验证、自定义注释等,帮助用户进一步探索。确保回答结构清晰,步骤详细,代码可运行,并涵盖用户可能的后续问题。</think>### Python单细胞测序数据细胞注释示例代码 #### 核心工具包 1. **Scanpy**:单细胞数据分析基础框架[^1] 2. **CellTypist**:基于机器学习的自动细胞注释工具 3. **scCATCH**:基于标记基因数据库的注释工具 #### 示例代码(基于CellTypist) ```python import scanpy as sc import celltypist # 数据预处理(参考引用[1]) adata = sc.read_10x_mtx("filtered_feature_bc_matrix/") # 加载10x数据 sc.pp.filter_cells(adata, min_genes=200) # 细胞过滤 sc.pp.normalize_total(adata) # 标准化 sc.pp.log1p(adata) # 对数转换 # 自动注释(使用预训练模型) model = celltypist.models.Model.load("Immune_All_Low.pkl") # 加载免疫细胞模型 predictions = celltypist.annotate(adata, model=model, majority_voting=True) adata = predictions.to_adata() # 将注释结果添加到adata对象 # 查看注释结果 print(adata.obs["celltypist_majority_voting"].value_counts()) # 可视化 sc.pl.umap(adata, color="celltypist_majority_voting", legend_loc="on data") ``` #### 代码解析 1. **数据预处理**:遵循单细胞分析标准流程[^1] $$ \text{标准化公式: } X_{\text{norm}} = \frac{X}{\sum{\text{reads per cell}}} \times 10^4 $$ 2. **注释流程**:使用包含83种免疫细胞类型的预训练模型 3. **结果验证**:通过`majority_voting`参数提升注释准确性 #### 手动注释方法(基于标记基因) ```python # 定义细胞类型标记基因字典 marker_genes = { "T细胞": ["CD3D", "CD3E"], "B细胞": ["CD79A", "MS4A1"], "单核细胞": ["CD14", "LYZ"] } # 计算标记基因表达量 sc.tl.score_genes(adata, gene_list=marker_genes["T细胞"], score_name="T_score") # 设置阈值进行注释 adata.obs["manual_annotation"] = "Unknown" adata.obs.loc[adata.obs["T_score"] > 0.5, "manual_annotation"] = "T细胞" ``` #### 数学表达 对于自动注释模型,CellTypist使用逻辑回归分类器: $$ P(y=c|x) = \frac{e^{w_c^T x}}{\sum_{k=1}^C e^{w_k^T x}} $$ 其中: - $x$ 表示细胞的基因表达向量 - $w_c$ 是类别$c$的权重向量 - $C$ 是细胞类型总数 #### 结果验证指标 $$ \text{置信度评分} = \max(P(y=c|x)) $$ 建议保留置信度>0.7的注释结果[^2] ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值