论文解读:《DanQ:用于量化 DNA 序列功能的混合卷积和递归深度神经网络》

论文解读:《DanQ: a hybrid convolutional and recurrent deep neural network for quantifying the function of DNA sequences》

文章地址:https://academic.oup.com/nar/article/44/11/e107/2468300
DOI:https://doi.org/10.1093/nar/gkw226
期刊:Nucleic Acids Research
2021年影响因子/JCR分区:19.16/Q1
发布时间:2016 年 4 月 15 日
GitHub:http://github.com/uci-cbcl/DanQ

1.文章概述

在广泛的基因组学领域中,对 DNA 序列的特性和功能进行建模是一项重要但具有挑战性的任务。这项任务对于非编码 DNA 来说尤其困难,其中绝大多数在功能方面仍然知之甚少。一个强大的非编码 DNA 功能预测模型可以为基础科学和转化研究带来巨大的好处,因为超过 98% 的人类基因组是非编码的,而 93% 的疾病相关变异位于这些区域。为了满足这一需求,作者提 出了 DanQ,这是一种新颖的混合卷积和双向长短期记忆递归神经网络框架,用于从头开始预测非编码函数。在 DanQ 模型中,卷积层捕获调控基序,而循环层捕获基序之间的长期依赖关系,以学习调控“语法”以改进预测。 DanQ 在多个指标上比其他模型有很大改进。对于某些监管标记,与相关模型相比,DanQ 可以在精确召回曲线指标下的面积上实现超过 50% 的相对改善。

2.背景

最近大量的高通量基因组测序数据促进了新型生物信息学算法的发展,这些算法可以集成大型、特征丰富的数据集。深度学习算法是此类问题的有吸引力的解决方案,因为它们可以在大型数据集上进行扩展,并且可以有效地从特征丰富的数据集中识别复杂模式。之所以能够这样做,是因为深度学习算法利用大量训练数据和专用硬件来有效训练深度神经网络 (DNN),从多层非线性变换中学习高级抽象知识。 DNN 已经适用于基因组学问题,例如基序发现、预测遗传变异的有害性和基因表达推断。
人们越来越有兴趣直接从序列预测功能,而不是从基因模型和多物种比对等精选数据集预测功能。这种兴趣在很大程度上归因于这样一个事实,即超过 98% 的人类基因组是非编码的,其功能不是很明确。可以直接从序列预测功能的模型可能会揭示有关这些非编码元素的新见解。超过 1200 项全基因组关联研究已经确定了近 6500 个易患疾病或性状的单核苷酸多态性 (SNP),其中 93% 位于非编码区 ,突出了这种预测模型的重要性。卷积神经网络 (CNN) 是适用于该任务的 DNN 的变体。 CNN 使用权重共享策略来捕获数据中的局部模式,例如序列。这种权重共享策略对于研究 DNA 尤其有用,因为卷积过滤器可以捕获序列基序,这些基序是 DNA 中被假定具有生物学功能的短而重复的模式。 DeepSEA 是一种最近开发的算法,它利用 CNN 来预测 DNA 功能。 CNN 以联合多任务方式进行训练,以同时学习预测大规模染色质分析数据,包括跨多种细胞类型的转录因子 (TF) 结合、DNase I 敏感性和组蛋白标记谱,从而使 CNN 能够学习组织-具体功能。它明显优于 gkm-SVM,这是一种相关算法,也可以预测 DNA 序列的调节功能,使用支持向量机而不是 CNN 进行预测。为了预测监管变化的影响,gkm-SVM和 DeepSEA 都使用了类似的预测函数策略来参考和等位基因序列和处理得分差异。
DNN 的另一个变体是循环神经网络 (RNN)。与 CNN 不同,RNN 单元之间的连接形成有向循环。这会创建网络的内部状态,使其能够表现出动态的时间或空间行为。双向长短期记忆网络 (BLSTM) 是 RNN 的一种变体,它结合了两个 RNN 的输出,一个从左到右处理序列,另一个从右到左处理序列。这两个 RNN 不是常规的隐藏单元,而是包含 LSTM 块,它们是可以记住任意时间长度值的智能网络单元。 BLSTM 可以捕获长期依赖关系,并且对其他机器学习应用程序有效,例如音素分类、语音识别、机器翻译和人类动作识别。尽管 BLSTM 对研究序列数据很有效,但它们尚未应用于 DNA 序列。
在这里插入图片描述
因此,作者提出了 DanQ,一种结合了 CNN 和 BLSTM 的混合框架(图 1)。 DanQ 模型的第一层旨在通过卷积过滤扫描序列中的主题位点。 DeepSEA 模型的卷积步骤包含交替顺序的三个卷积层和两个最大池化层来学习motifs,而 DanQ 模型的卷积步骤要简单得多,它包含一个卷积层和一个最大池化层来学习motifs。最大池化层之后是 BLSTM 层。在最大池化层之后包含循环层的基本原理是,基序可以遵循由物理约束支配的监管语法,这些物理约束决定了基序的体内空间排列和组合频率,这是与组织特异性功能元素(如增强子)相关的特征。在 BLSTM 层之后,DanQ 模型的最后两层是整流线性单元的密集层和多任务 sigmoid 输出,类似于 DeepSEA 模型。
DanQ 在多个指标上超越了其他预测 DNA 序列特性和功能的方法。此外,表明模型学习的卷积核可以转换为motifs,其中许多与已知motifs显着匹配。

3.数据和方法

3.1 数据和特征

DanQ 框架使用与 DeepSEA 框架相同的功能和数据。简而言之,人类 GRCh37 参考基因组被分割成不重叠的 200-bp 二进制。通过将统一处理的 ENCODE和 Roadmap Epigenomics数据发布中的 919 个 ChIP-seq 和 DNase-seq 峰集相交来计算目标,为每个样本产生一个长度为 919 的二进制目标向量。每个样本输入由一个 1000-bp 序列组成,该序列以 200-bp 二进制为中心,与至少一个 TF 结合 ChIPseq 峰重叠,并与相应的目标向量配对。
基于这些信息,作者预计每个目标向量将至少包含一个正值;但只发现大约 10% 的目标向量都是负数。每个 1000-bp 的 DNA 序列被 one-hot 编码成一个 1000 × 4 的二进制矩阵,列对应于 A、G、C 和 T。训练、验证和测试集是从 DeepSEA 网站下载的。样本按染色体分层为严格不重叠的训练、验证和测试集。验证集不用于训练或测试。还包括反向补码,有效地将每个数据集的大小加倍。
为了评估测试集的性能,每个序列的预测概率计算为正向和反向互补序列对的概率预测的平均值,类似于DeepSEAs评估实验。

3.2 DanQ模型训练

所有权重都通过从 unif(−0.05,0.05) 中随机抽取来初始化,并且所有偏差最初设置为 0。除了随机初始化之外,另一种策略是从已知主题初始化内核:内核的随机子部分设置为相等位置频率矩阵的值减去 0.25,其对应的偏差是从 unif(-1.0,0.0) 中随机抽取的。
神经网络模型使用 RMSprop 算法进行训练,minibatch 大小为 100,以最小化训练集上的平均多任务二元交叉熵损失函数。在每个训练时期结束时评估验证损失以监控收敛。作者训练的第一个模型包含 320 个具有随机初始权重的卷积核,称为 DanQ,需要 60 个 epoch 才能完全训练,每个训练 epoch 需要 6 小时。作者训练的第二个模型,指定为 DanQ-JASPAR,因为一半的内核是用来自 JASPAR 数据库的motifs初始化的,包含 1024 个卷积内核,需要 30 个 epoch 才能完全训练,每个训练 epoch 需要12 小时。

3.3 逻辑回归

出于基准目的,作者还训练了逻辑回归 (LR) 基线模型。与 DanQ 和 DeepSEA 模型不同,LR 模型不将原始序列作为输入进行处理。相反,LR 模型使用长度为 1-5 bp 的 k-mers 的零均值和单位方差归一化计数作为特征。 LR 模型使用 1e-6 的小 L2 权重正则化进行正则化。与 DanQ 模型的训练类似,LR 模型使用 RMSprop 算法进行训练,minibatch 大小为 100,以最小化训练集上的平均多任务二元交叉熵损失函数。在每个训练时期结束时评估验证损失以监控收敛。作者注意到这种训练方法相当于训练 919 个单独的单任务 LR 模型。

3.4 功能 SNP 优先级

DanQ 功能性 SNP 优先级框架与 DeepSEA 功能性 SNP 优先级框架共享相同的数据集、特征和训练算法,本质上将 DeepSEA 染色质效应预测与 DanQ 染色质效应预测交换。作者下载了用于训练和测试的正负 SNP 集,还下载了这些变体的 DeepSEA 功能 SNP 分数,用于基准测试。阳性 SNP 包括来自 SNP 和表型之间关联的全基因组存储库 (GRASP) 数据库的表达数量性状基因座 (eQTL) 和美国国家人类基因组研究所 (NHGRI) 的 GW AS 研究中发现的非编码性状相关 SNP ) GW AS 目录。阴性 SNP 由 1000 个基因组计划 SNP (25) 组成,在 1000 个基因组群体中具有受控的次要等位基因频率分布。阴性 SNP 进一步分为训练集和测试集,前者由 1,000,000 个随机选择的非编码 1000 个基因组 SNP 组成,其具有与 eQTL 或 GW AS 阳性标准匹配的次要等位基因频率分布,后者由不同距离的阴性 SNP 组成阳性标准 SNP。作者使用 XGBoost 实现训练了两个增强集成分类器模型,一个用于 GRASP 集,一个用于 GW AS 集。特征计算如 Zhou 和 Troyanskaya中所述,将 DeepSEA 染色质效应预测替换为 DanQ 染色质效应预测。在训练之前,所有特征都标准化为均值 0 和方差 1。不相等的正负训练样本大小与样本权重相平衡。每个模型的性能通过 10 倍交叉验证和几个负数组进行估计。

4.结果

作者首先训练一个包含 320 个卷积核的 DanQ 模型 60 个 epoch,评估每个 epoch 结束时验证集上的平均多任务交叉熵损失,以监控训练进度。为了规范模型,还包括 dropout,以在每个训练步骤中将最大池和 BLSTM 层的神经元激活比例随机设置为 0。
在这里插入图片描述
出于基准测试的目的,作者将经过充分训练的 DanQ 模型与 LR 基线模型和已发布的 DeepSEA 模型进行比较。为了比较模型之间的性能,首先计算了测试集上 919 个二元目标中每个目标的接收者操作特征曲线下面积 (ROC AUC)(图 2)。在 ROC的AUC 分数方面,DanQ 在两个目标上的表现优于 DeepSEA 模型,如图 2 顶部的示例所示,尽管这种性能差异相对较小。这种模式延伸到其余目标,因为 DanQ 在 94.1% 的目标上优于 DeepSEA,尽管差异再次相对较小,大多数目标的绝对改进约为 1-4%。尽管 LR 模型很简单,但 ROC的AUC 统计数据表明 LR 是一个有效的预测指标,ROC的AUC 得分通常超过 70%。鉴于正二元目标的稀疏性(~2%),ROC的AUC 统计数据因类别不平衡而高度膨胀,这一事实在原始 DeepSEA 论文中被忽略了。
在这里插入图片描述
衡量性能的更好指标是精确召回曲线下的面积 (PR AUC)(图 3)。精度和召回率都考虑了真阴性的数量,因此 PR的AUC 指标比 ROC的AUC 指标更不容易因类别不平衡而发生膨胀。正如预期的那样,发现 PR的AUC 指标更加平衡,如图 3 顶部的两个示例的 LR 模型现在如何实现低于 5% 的 PR的AUC 所示,远低于其他两个模型的性能。此外,在 PR的AUC 统计量下,DeepSEA 之间的 DanQ 之间的性能差距比在 ROC的AUC 统计量下更加明显。对于所示的两个示例,在 PR的AUC 指标下,绝对改善超过 10%,相对改善超过 50%,并且所有 DanQ PR的AUC 分数中有 97.6% 超过了 DeepSEA PR的AUC 分数。这些结果表明,添加循环连接显着提高了 DanQ 的建模能力。
在这里插入图片描述
使用 DeepBind 方法中描述的类似方法,将内核从 DanQ 模型的卷积层转换为位置频率矩阵或基序。然后,我们使用 TOMTOM 算法将这些基序与已知基序对齐。在 DanQ 模型学习的 320 个基序中,166 个与已知基序显着匹配(E < 0.01)(图 4A)。作者使用 RSAT 矩阵聚类将 320 个基序对齐并聚类为 118 个聚类工具,并证实该模型学习了大量的信息主题(图 4B)。
鉴于数据的范围很大,作者推测当前的模型并没有涵盖有用motifs特征的整个空间,尽管学习了各种各样的motifs。此外,众所周知,权重初始化对性能神经网络起着至关重要的作用,作者假设更好的初始化策略可以进一步提高神经网络的性能。因此,训练了一个包含 1024 个卷积核的更大模型,其中大约一半使用来自 JASPAR 的已知基序进行初始化,并发现这种替代的初始化方式可以进一步提高 DanQ 的性能。
最后,作者扩展了 DanQ 以根据参考序列和等位基因序列之间预测的染色质效应信号的差异对功能 SNP 进行优先排序。下载了用于训练和评估增强集成分类器的训练和测试 SNP 集。阳性 SNP 是注释的“功能性”非编码阳性 SNP,它们是来自 GRASP 数据库的 eQTL SNP,以及在来自美国 NHGRI GW AS 目录的 GW AS 研究中鉴定的非编码性状相关 SNP。阴性“非功能性”变异标准由 1000 个基因组计划 SNP (25) 组成,在 1000 个基因组群体中具有受控的次要等位基因频率分布。这些变体集与 DeepSEA 功能 SNP 优先级框架用于训练和测试的集相同。 DanQ 框架在大多数测试集上都优于 DeepSEA 框架,在 ROC的AUC 方面的性能差异为 0.5-2%

5.结论

总之,DanQ 是一种直接从序列中直接预测 DNA 功能的强大方法,使其成为研究非编码 DNA 功能的宝贵资产。它的混合架构允许它同时学习主题和主题之间的复杂监管语法。循环连接提供的额外建模能力使 DanQ 的性能明显优于 DeepSEA,这是一种缺乏循环建模的纯 CNN 模型。这种性能差距体现在几个指标上,包括两个模型之间 AUC 统计数据的直接比较。我们认为 PR AUC 统计量是一个比 ROC AUC 统计量更平衡的指标,用于评估这种情况下的性能,因为存在大量的类不平衡。事实上,在 PR AUC 统计数据下,性能差距可能相当大,某些表观遗传标记的相对改进达到了 50% 以上。尽管性能有了显着提高,但仍有很大的改进空间,因为任一模型的大多数 PR AUC 分数都低于 70%。此外,染色质效应预测的显着改进不会立即转化为功能变异预测的同样大的改进。在这方面可能限制性能的一个因素是,虽然作者标记为阳性变体的 GRASP eQTL 和 GW AS 目录 SNP 与表型相关,但这些 SNP 可能不是因果变体。相反,因果变体可能与这些 SNP 连锁不平衡。因此,我们假设扩展我们的框架以研究表型和单倍型之间的联系而不是表型和单个 SNP 之间的联系可能会提高预测性能。然而,DanQ 预测染色质效应的能力提高意味着它可以更好地预测由遗传变异引起的表观遗传变化,这对于在一组紧密相关的变异中优先考虑因果变异和预测基因组编辑的表型结果是有用的信息,后者有利于合成生物学和转基因动物研究等多个领域。
有几个未来值得探索的途径:
首先,该模型可以完全循环,因此它可以处理任意长度的序列,例如整个染色体序列,以生成顺序输出。相比之下,当前的设置只能处理具有静态输出的恒定长度序列。完全循环的架构也可能有利于我们研究变异的努力,因为它可以让我们探索遗传变异的长期后果,以及彼此连锁不平衡的 SNP 的累积效应。
其次,作者有兴趣在更多可用的细胞类型中整合新的 ChIP-seq 和 DNase-seq 数据集。结合其他类型的数据,例如甲基化、核小体定位和转录,也可能产生新的结果并改善功能变体的优先级。
最后,作者致力于更新和改进 DanQ 模型。正如结果所示,模型架构和权重初始化会影响性能。以前,手动选择模型参数。例如,DanQ 模型包含 320 个内核,因为 DeepSEA 模型在其第一个卷积层中也包含 320 个内核,这使得这两个模型在架构级别上更具可比性。有趣的是,尽管第一个模型包含的自由权重比 DeepSEA 少,但第一个模型仍然明显优于 DeepSEA。此外,在基于 JASPAR 的模型中选择了 1024 个内核,以适应 JASPAR 数据库中的 519 个主题以及大致相等数量的随机初始化内核。一个有趣的前景是利用基于分布式计算的超参数调整算法来自动找到模型架构、初始权重和超参数的最佳组合。随着模型的改进,将致力于提供定期更新。此外,作者的motifs分析表明,神经网络训练是一种有效的motifs发现者。因此,作者的更新将包括 MEME 最小格式的模型中的图案,这是一种与大多数图案相关程序兼容的灵活格式,作为社区的资源。据作者所知,这是混合卷积和循环网络架构的首次应用,目的是从 DNA 序列中从头预测函数。期望这种混合架构将被不断探索,以研究生物序列。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值