37、基于混合模型和神经网络的单细胞插补方法

基于混合模型和神经网络的单细胞插补方法

1. 引言

单细胞测序是在单细胞水平上对转录组或基因组进行扩增和测序,以检测来自多个组学(转录组学、表观基因组学和蛋白质组学)的单细胞数据。然而,单细胞分离并单独测序时,通量很低,主要受成本限制,随着待测单细胞数量增加,测序成本几乎呈线性增长。近年来采用条形码单细胞识别方法,为每个细胞添加独特的DNA序列,一次建库就能测量成百上千个单细胞的信息。

但每次建库后形成的细胞 - 基因矩阵会有很多零值,这些零值可能是真的未表达,也可能是表达值太小而未表达,这两种情况对结果的影响不同。单细胞插补技术应运而生,可有效解决上述问题。下游有很多分析方法可评估插补结果的质量,如聚类、归一化、差异表达等,其中聚类分析最常用。

当前的插补算法可分为基于模型的插补算法、基于平滑的插补算法和基于神经网络的插补算法。过去的算法更多考虑基因之间的相关性和细胞之间的相似性,但未考虑提取高表达基因对算法的作用,利用神经网络加快学习速度对插补结果也有益。因此,提出了一种新的插补方法,用统计模型筛选高表达基因,以高表达基因作为数据集训练模型,修正网络参数,训练后将低表达基因作为输入,输出网络预测的基因表达值,最后将结果插补到原始表达矩阵中。

2. 相关工作
  • 混合模型 :混合模型是几种不同模型的组合,在统计学中,它代表大群体中存在子群体的概率模型,通常拟合一个混合分布来表示大群体中观测值的概率分布。本实验中,将单细胞中的缺失部分表示为伽马分布,非缺失部分表示为正态分布。
  • 正态分布 :也称为高斯分布,在数学、物理和工程领域是非常重要的概率分布,对统计学的很多方面有重大影响。若随机变量X服从数学期望为μ、方差为∂²的正态分布,记为N(μ, ∂²),其概率密度函数中,正态分布的期望值μ决定其位置,标准差∂决定分布的大小。当μ = 0,∂ = 1时为标准正态分布。正态分布在医学现象(如人群身高、血液中红细胞数量、血红蛋白量、胆固醇等)以及实验中的随机误差中呈现为正态或近似正态分布。在单细胞测序中,用正态分布曲线标记正常未缺失的细胞。
  • 概率密度函数:(f (x) = \frac{1}{\sqrt{2\pi}} \exp \left( -\frac{(x - \mu)^2}{2\partial^2} \right))
  • 伽马分布 :是统计学的连续概率函数,在概率统计中是非常重要的分布,解决的问题是“n个随机事件发生需要多长时间”,可看作n个指数分布的独立随机变量之和。参数α称为形状参数,β称为逆尺度参数,当α = 1时,变为指数分布。
  • 概率密度函数:(f_x(x) = \begin{cases} \frac{\lambda^{\alpha}x^{\alpha - 1}e^{-\lambda x}}{\Gamma(\alpha)}, & x > 0 \ 0, & x \leq 0 \end{cases})
  • EM算法 :期望最大算法是一种通过迭代进行最大似然估计的优化算法,通常用作缺失数据的概率模型进行参数估计,广泛用于处理数据中的缺失值以及许多机器学习算法(如高斯混合模型和隐马尔可夫模型)的参数估计。标准计算框架由交替的E步和M步组成:
    1. E步 :使用隐藏变量的现有估计值,计算它们的最大似然估计。
    • (Q(z) = p(z|x; \theta))
      2. M步 :最大化E步中获得的最大似然值,计算参数的值。
    • (\theta = \arg\max_{\theta} \sum_{z} Q_i(z) \log \frac{p(z, x; \theta)}{Q(z)})
3. 方法

该方法基于深度学习,使用TensorFlow实现,有以下五个步骤:
- 预处理
1. 过滤 :原始输入矩阵是细胞 - 基因矩阵,遍历整个矩阵,若一个细胞样本中表达数值的基因少于200个,过滤该细胞样本(从二维矩阵中删除该列);若一个基因有表达值的细胞数量少于3个,过滤该基因(从二维矩阵中删除该行)。删除不符合条件的基因和细胞后,得到计数矩阵。
2. 筛选线粒体基因 :细胞分离过程中,单细胞测序可能导致细胞损伤或建库失败,引入低质量数据,表现为细胞表达、基因表达降低或线粒体基因比例增加,需在分析前去除这些低质量的行和列。
3. 归一化 :使用TPM处理,先对基因长度进行归一化,再对测序深度进行归一化,公式为(TMP_i = 10^6 * \frac{n_i/l_i}{\sum_{j} n_j/l_j}),该方法更适合组内重复样本的比较和组内样本的比较。然后使用伽马 - 正态模型识别高表达基因。
- 识别高表达基因
1. 聚类 :将细胞定义为节点,细胞中的基因表达值作为特征值进行k - 均值聚类,用欧氏距离衡量细胞中基因表达的相似性,将特征值相似的细胞聚集为一个细胞子群,默认k为5。
- (c(i) := \arg\min_{j} \left\lVert x^{(i)} - \mu_j \right\rVert^2)
2. 区分高低表达基因 :使用伽马 - 正态混合模型,伽马模型统计缺失值较多的细胞子集,正态模型统计缺失值较少的细胞子集,识别出的高表达基因将被保留。由于矩阵中的零值不一定都来自缺失现象,需构建统计模型判断这些零值是否真的缺失,提前统计缺失率以确定高表达基因。用两个统计模型确定表达内容,非零值可用伽马 - 正态混合模型统计,缺失值大的部分用伽马模型统计(即低表达基因),缺失值小的部分用正态模型确定(即高表达基因),每个聚类都有单独的混合模型,根据统计模型给出表达值内容,默认截断阈值为0.5。
- 伽马分布:(f (X, \alpha, \beta) = \frac{\beta^{\alpha}}{\Gamma(a)}X^{\alpha - 1}e^{-\beta x})
- 正态分布:(f (X, \mu, \sigma^2) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(X - \mu)^2}{2\sigma^2}})
- 假设一个聚类中低基因分布的概率为ρ,基因(x_i)的密度函数满足:(f (x_i, \alpha, \beta, \mu, \sigma^2) = (1 - \rho) \frac{\beta^{\alpha}}{\Gamma(a)}x_i^{\alpha - 1}e^{-\beta x} + \rho \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x_i - \mu)^2}{2\sigma^2}})
- 使用EM算法推导伽马 - 正态模型的最大期望,迭代更新直到结束,选择阈值0.5,若最终结果大于0.5,为高表达基因,否则为低表达基因。
- 网络架构
每个聚类使用基于之前聚类结果的新神经网络,将每个聚类中选择的高表达基因分块输入神经网络训练。网络架构有五层:
1. 输入层 :包含512个神经节点。
2. 全连接层 :激活函数为ReLu,包含256个细胞节点。
3. Dropout层 :选择20%的丢弃率,目的是减少参数之间的相互依赖,缓解过拟合问题。
4. 全连接层 :包含512个细胞节点。
5. 全连接层 :包含512个细胞节点,添加这两层是为了更好地增加细胞之间的连接,将学习到的特征映射到全局样本空间。
损失函数使用均方误差(MSE)来减少输入层和输出层之间的误差,表达值较高的基因权重更高。高表达基因中,95%的数据用作训练集,5%用作测试集,网络初始学习率设为0.0001,每个epoch周期会自动修改学习率,优化器为Adam。将筛选出的高表达基因输入神经网络的训练参数中,输出结果是低表达基因应反映的表达值,最后将结果替换原始矩阵中的值。

数据处理步骤 操作内容
过滤 遍历细胞 - 基因矩阵,删除表达数值基因少于200个的细胞样本列和有表达值细胞少于3个的基因行
筛选线粒体基因 去除细胞分离和建库过程中引入的低质量数据(表现为细胞表达、基因表达降低或线粒体基因比例增加)
归一化 使用TPM处理,公式为(TMP_i = 10^6 * \frac{n_i/l_i}{\sum_{j} n_j/l_j})
聚类 以细胞为节点,基因表达值为特征值进行k - 均值聚类,默认k为5
区分高低表达基因 使用伽马 - 正态混合模型,通过EM算法推导最大期望,阈值0.5区分高低表达基因
网络训练 高表达基因分块输入五层神经网络训练,损失函数用MSE,95%训练集,5%测试集,初始学习率0.0001,优化器Adam
graph LR
    A[预处理] --> B[过滤]
    A --> C[筛选线粒体基因]
    A --> D[归一化]
    D --> E[识别高表达基因]
    E --> F[聚类]
    E --> G[区分高低表达基因]
    G --> H[网络架构]
    H --> I[训练高表达基因]
    I --> J[预测低表达基因]
    J --> K[插补结果到原始矩阵]

基于混合模型和神经网络的单细胞插补方法

4. 插补

在单细胞测序中,插补的作用是补充因建库过程中意外片段化而未表达的基因表达值,便于后续对单细胞测序数据进行分析,提高后续分析结果的准确性。具体操作步骤如下:
1. 划分数据集 :将筛选出的高表达基因分为训练样本数据集和测试样本数据集。
2. 训练模型 :使用训练样本数据集对神经网络模型进行训练,得到预测模型。
3. 预测结果 :将聚类中的低表达基因输入到训练好的预测模型中,得到预测结果。
4. 替换值 :用预测结果替换原始矩阵中低表达基因的表达值,并且是整行基因进行替换。替换后,原始矩阵中大量的零值显著减少,方便进行下游分析。

5. 评估

为了评估插补效果,采用了以下两种指标:
- PCC(皮尔逊相关系数) :广泛用于衡量两个变量之间的相关程度,其值介于 -1 和 1 之间。两个变量的皮尔逊相关系数定义为两个变量之间的协方差与标准差的商,可用于衡量插补基因与原始基因之间的相关性。公式如下:
- (Corr = \frac{Cov(X (gene), Xmethod(gene))}{\sqrt{Var(X (gene)) * Var(Xmethod(gene))}})
其中,(X) 是输入矩阵,(Cov) 是协方差矩阵,(Var) 是方差。
- MSE(均方误差) :是一种更方便的衡量“平均误差”的方法,可评估数据的变化程度。MSE 的值越小,预测模型描述实验数据的准确性越高。公式如下:
- (MSE = \sum (X (gene) - Xmethod(gene))^2)

6. 实验
6.1 数据集

选择了四个数据集,包括两个小鼠数据集和两个人类数据集,这些都是公开数据集。小鼠数据集可从 GEO 数据库下载,分别为 GSE67602(小鼠表皮单细胞)和 GSE60361(小鼠大脑皮层单细胞);人类数据集为 Jurkat 和 293T,可从 10X Genomes 官方网站下载。

6.2 预处理结果

对数据集进行预处理过滤后,原始矩阵中许多不相关的基因和死细胞被筛选掉。以下是四个数据集在筛选前后细胞和基因数量的对比:
| 数据集 | 筛选前 | 筛选后 |
| ---- | ---- | ---- |
| Jurkat | 3258 × 26024 | 3258 × 15269 |
| 293T | 2885 × 32738 | 2885 × 16316 |
| GSE60361 | 3005 × 16382 | 3005 × 15602 |
| GSE67602 | 1442 × 16383 | 1442 × 13001 |

从表中可以看出,细胞数量基本保持不变,而基因数量显著减少。经过筛选后的细胞基因矩阵被称为计数矩阵。

6.3 插补结果

本实验与 DeepImpute 算法进行了比较,对比了皮尔逊相关系数和均方误差这两个评估指标。结果表明,使用该方法后,皮尔逊相关系数显著提高,插补结果的相关性明显增强;均方误差也相应降低。具体数据对比可参考以下表格:
| 评估指标 | 本方法 | DeepImpute 算法 |
| ---- | ---- | ---- |
| 皮尔逊相关系数 | 显著提高 | 较低 |
| 均方误差 | 降低 | 较高 |

综上所述,基于混合模型和神经网络的单细胞插补方法在处理单细胞测序数据时,能够有效识别细胞中的缺失值,增强细胞群体之间的聚类效果,提高差异表达分析的能力。通过对多个数据集的实验验证,该方法在插补效果上优于传统的 DeepImpute 算法。

graph LR
    A[实验数据集] --> B[预处理]
    B --> C[插补]
    C --> D[评估]
    D --> E[与 DeepImpute 算法对比]
【电力系统】单机无穷大电力系统短路故障暂态稳定Simulink仿真(带说明文档)内容概要:本文档围绕“单机无穷大电力系统短路故障暂态稳定Simulink仿真”展开,提供了完整的仿真模型与说明文档,重点研究电力系统在发生短路故障后的暂态稳定性问题。通过Simulink搭建单机无穷大系统模型,模拟不同类型的短路故障(如三相短路),分析系统在故障期间及切除后的动态响应,包括发电机转子角度、转速、电压功率等关键参数的变化,进而评估系统的暂态稳定能力。该仿真有助于理解电力系统稳定性机理,掌握暂态过程分析方法。; 适合人群:电气工程及相关专业的本科生、研究生,以及从事电力系统分析、运行与控制工作的科研人员工程师。; 使用场景及目标:①学习电力系统暂态稳定的基本概念与分析方法;②掌握利用Simulink进行电力系统建模与仿真的技能;③研究短路故障对系统稳定性的影响及提高稳定性的措施(如故障清除时间优化);④辅助课程设计、毕业设计或科研项目中的系统仿真验证。; 阅读建议:建议结合电力系统稳定性理论知识进行学习,先理解仿真模型各模块的功能与参数设置,再运行仿真并仔细分析输出结果,尝试改变故障类型或系统参数以观察其对稳定性的影响,从而深化对暂态稳定问题的理解。
本研究聚焦于运用MATLAB平台,将支持向量机(SVM)应用于数据预测任务,并引入粒子群优化(PSO)算法对模型的关键参数进行自动调优。该研究属于机器学习领域的典型实践,其核心在于利用SVM构建分类模型,同时借助PSO的全局搜索能力,高效确定SVM的最优超参数配置,从而显著增强模型的整体预测效能。 支持向量机作为一种经典的监督学习方法,其基本原理是通过在高维特征空间中构造一个具有最大间隔的决策边界,以实现对样本数据的分类或回归分析。该算法擅长处理小规模样本集、非线性关系以及高维度特征识别问题,其有效性源于通过核函数将原始数据映射至更高维的空间,使得原本复杂的分类问题变得线性可分。 粒子群优化算法是一种模拟鸟群社会行为的群体智能优化技术。在该算法框架下,每个潜在解被视作一个“粒子”,粒子群在解空间中协同搜索,通过不断迭代更新自身速度与位置,并参考个体历史最优解群体全局最优解的信息,逐步逼近问题的最优解。在本应用中,PSO被专门用于搜寻SVM中影响模型性能的两个关键参数——正则化参数C与核函数参数γ的最优组合。 项目所提供的实现代码涵盖了从数据加载、预处理(如标准化处理)、基础SVM模型构建到PSO优化流程的完整步骤。优化过程会针对不同的核函数(例如线性核、多项式核及径向基函数核等)进行参数寻优,并系统评估优化前后模型性能的差异。性能对比通常基于准确率、精确率、召回率及F1分数等多项分类指标展开,从而定量验证PSO算法在提升SVM模型分类能力方面的实际效果。 本研究通过一个具体的MATLAB实现案例,旨在演示如何将全局优化算法与机器学习模型相结合,以解决模型参数选择这一关键问题。通过此实践,研究者不仅能够深入理解SVM的工作原理,还能掌握利用智能优化技术提升模型泛化性能的有效方法,这对于机器学习在实际问题中的应用具有重要的参考价值。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值