SPOT-RNA:使用二维深度神经网络和迁移学习的集合进行 RNA 二级结构预测

摘要:我们的大部分人类基因组都会转录成结构和功能未知的非编码 RNA。获得非编码 RNA 的功能线索需要准确的碱基配对或二级结构预测。然而,当前基于折叠的算法的此类预测性能十多年来一直停滞不前。在这里,我们建议使用深度上下文学习进行碱基对预测,包括那些通过三级相互作用稳定的非规范和非嵌套(伪结)碱基对。由于只有 250 个非冗余的高分辨率 RNA 结构可用于模型训练,因此我们利用最初使用 10,000 个非冗余的最新高质量 bpRNA 数据集训练的模型进行迁移学习通过比较分析获得RNA。由此产生的方法在预测所有碱基对,特别是非规范和非嵌套碱基对方面取得了巨大的、统计上显着的改进。所提出的方法 (SPOT-RNA) 具有免费提供的服务器和独立软件,应该有助于改进 RNA 结构建模、序列比对和功能注释。

1.简介

        RNA 二级结构由其核苷酸序列中通过氢键配对的核苷酸碱基列表表示。这些碱基对的堆叠形成了驱动RNA三维结构折叠的支架 1 。因此,RNA 二级结构的知识对于 RNA 结构建模和理解其功能机制至关重要。因此,已经开发了许多实验方法来通过使用一维或多维探针来推断配对碱基,例如酶、化学物质、突变和与下一代测序相结合的交联技术 2,3 。然而,单碱基对分辨率下的精确碱基配对信息仍然需要通过 X 射线晶体学、核磁共振 (NMR) 或低温电子显微镜确定高分辨率、三维 RNA 结构。 RNAcentral 4 中收集的 1400 万个非编码 RNA 具有实验确定的结构 5 ,非常需要开发准确且具有成本效益的计算方法来直接从序列预测RNA二级结构。

        目前的RNA二级结构预测方法可分为比较序列分析和具有热力学、统计或概率评分方案的折叠算法6。比较序列分析确定同源序列之间保守的碱基对。如果有大量同源序列可用并且这些序列与专家知识手动比对,这些方法是高度准确的。然而,Rfam8 中已知的 RNA 家族只有几千个。因此,RNA二级结构预测最常用的方法是根据适当的评分函数折叠单个RNA序列。在这种方法中,RNA 结构根据最近邻模型被分为子结构,例如环和茎。然后采用动态规划算法从这些子结构中定位全局最小值或概率结构。每个子结构的评分参数可以通过实验获得(例如,RNAfold11、RNAstruct12 和 RNAshapes13)或通过机器学习(例如,CONTRAfold14、CentroidFold15 和 ContextFold16)。然而,总体精度(所有预测碱基对中正确预测的碱基对的比例)似乎已达到“性能上限”6,约为 80%17,18。这部分是因为所有现有方法都忽略了三级相互作用产生的部分或全部碱基对19。这些碱基对包括单独(非堆叠)、假结(非嵌套)和非规范(非 A-U、G-C 和 G-U)碱基对以及三联体相互作用 19,20。虽然一些方法可以预测带有假结的 RNA 二级结构(例如 pknotsRG21、Probknot22、IPknot23 和 Knotty24),而其他方法可以预测非规范碱基对(例如 MC-Fold25、MCFold-DP26 和 CycleFold27),但它们都不能提供两者的计算预测,更不用说单独的碱基对和碱基三联体了。

       本文提出的工作受到 Raptor-X28 和 SPOT-Contact29 使用残差网络 (ResNets)30 和二维双向长网络等深度学习神经网络算法直接预测蛋白质序列中蛋白质接触图的最新进展的启发。短期记忆细胞(2D-BLSTM)31,32。 SPOT-Contact 将整个蛋白质“图像”视为上下文,并使用 ResNet 超深混合网络与 2D-BLSTM 相结合进行预测。 ResNet 可以从每一层的整个序列“图像”中捕获上下文信息,并映射输入和输出之间的复杂关系。此外,2D-BLSTM 被证明在蛋白质结构预测中传播长程序列依赖性方面非常有效29,因为 LSTM 细胞能够记住训练期间序列位置彼此远离的残基之间的结构关系。与蛋白质接触图类似,RNA 二级结构是二维接触矩阵,尽管其接触定义不同(分别为 RNA 碱基对的氢键和蛋白质接触的距离截止)。然而,与蛋白质不同,蛋白质数据库 (PDB)5 中可用的非冗余 RNA 结构数量较少,使得深度学习方法不适合直接基于单序列的 RNA 二级结构预测。因此,机器学习技术很少得到利用。据我们所知,唯一的例子是 mxfold33,它采用小型机器学习算法(结构化支持向量机)进行 RNA 二级结构预测。与热力学模型相结合后,其性能比基于折叠的技术有了一些改进。然而,mxfold 仅限于规范碱基对,而不考虑假结。

       最近,发布了包含超过 100,000 个 RNA 序列 (bpRNA34) 的大型数据库,该数据库具有二级结构的自动注释。虽然这个数据库足够大,足以让我们采用深度学习技术,但比较分析中带注释的二级结构在单碱基对水平上可能并不可靠。为了克服这个限制,我们首先使用 bpRNA 来训练 ResNet 和 LSTM 网络的集合,类似于我们通过 SPOT-Contact29 用于蛋白质接触图预测的集合。然后,我们使用源自高分辨率 RNA 结构的精确碱基对小型数据库进一步训练大型模型。我们成功地使用这种迁移学习技术来识别蛋白质本质无序区域中的分子识别特征36。由此产生的方法称为 SPOT-RNA,是一种深度学习技术,用于预测所有配对的碱基,无论它们是否与三级相互作用相关。与 62 个高通量独立测试集相比,新方法在非嵌套、非规范和所有碱基对的 F1 分数上分别比次优方法提高了 53%、47% 和 10% 以上。通过 X 射线晶体学解析 RNA 结构。 SPOT-RNA 的性能通过由 NMR 测定的 39 个 RNA 结构和 PDB 中最近发布的 6 个非冗余 RNA 确定的单独测试集进一步证实。

2.结果

2.1 bpRNA初始训练

       我们通过构建一组非冗余的 RNA 序列来训练我们的 ResNets 和 LSTM 网络模型,这些 RNA 序列具有来自 bpRNA34 的注释二级结构,序列同一性截止值为 80%,这是程序 CD-HIT-EST37 允许的最低序列同一性截止值,并且具有之前曾被许多研究用于相同目的38,39。该数据集包含 13,419 个 RNA,在排除那些 >80% 的序列同一性后,进一步随机分为 10,814 个 RNA 用于训练 (TR0)、1300 个用于验证 (VL0) 和 1,305 个用于独立测试 (TS0)。通过使用 TR0 进行训练,VL0 进行验证,以及单个序列(Lx4 的单热向量)作为唯一输入,我们训练了许多具有 ResNet、BLSTM 的数量和大小组合的二维深度学习模型和 FC 层,布局如图 1 所示。最好的 5 个模型(仅通过 VL0 验证)在 VL0 和 TS0 上的集成性能如表 1 所示。与 Matthews 相关系数 (MCC) 的性能基本相同VL0 为 0.632,TS0 为 0.629,表明所训练的集成的稳健性。验证和测试之间的 F1 分数、精度调和平均值和灵敏度也基本相同(0.629 与 0.626)。补充表 1 进一步比较了单个模型与整体模型的性能。在 TS0 中,MCC 从 0.617(最好的单一模型)提高到 0.629,提高了 2%,证实了集成在消除单个模型中的随机预测误差方面的有用性。

图1 SPOT-RNA的广义模型架构。 SPOT-RNA 的网络布局,其中 L 是目标 RNA Act 的序列长度。表示激活函数 Norm。表示标准化函数,PreT表示在bpRNA数据集上训练的预训练(初始训练)模型。 

表 1 初始训练、迁移学习和直接训练后 SPOT-RNA 在验证和测试集上的性能。 

a Matthews 相关系数 b 精度和灵敏度的调和平均值 c 基于五重交叉验证的标准偏差

 

2.2 RNA 结构的迁移学习 

        从 bpRNA 数据集中获得的模型被转移到源自高分辨率非冗余 RNA 结构的碱基对上进行进一步训练,其中 TR1(训练集)、VL1(验证集)和 TS1(测试集)具有 120、30 和 67 个 RNA , 分别。 TS1 集独立于训练数据(TR0 和 TR1),因为它是通过首先以允许的最低序列同一性截止值 (80%) 通过 CD-HIT-EST 进行过滤

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值