RNA-RNA 与 RNA-蛋白质相互作用预测工具综述
1. RNA-RNA 相互作用预测网络服务概述
在生物信息学领域,RNA - RNA 相互作用(RRI)预测的网络服务发展迅速。为了使生物信息学软件得到广泛应用,它必须具备良好的性能和高可用性。网络服务开发是增加用户数量的有效途径,在某些情况下,网络服务器相关的论文比方法开发论文被引用的频率更高。
目前,虽然近年来开发了许多用于 CRISPR gRNA 设计的网络服务,但十年前非常流行的 miRNA 靶标预测网络服务却开发较少。此外,针对特定非编码 RNA(ncRNA)类别的相互作用预测网络服务,如 snoRNAs 和 piRNAs,也尚未得到很好的发展。这种发展不足可能并非因为现有方法已经足够准确而无需改进,而是相应的研究领域没有得到足够的关注。
2. 部分 RRI 预测网络服务介绍
| 服务名称 | 功能简介 |
|---|---|
| RIblast | 基于种子扩展方法的超快速 RNA - RNA 相互作用预测系统 |
| LncRRIsearch | 集成了组织特异性表达和亚细胞定位数据的长链非编码 RNA(lncRNA) - RNA 相互作用预测网络服务器 |
| pirScan | 预测秀丽隐杆线虫中 piRNA 靶向位点并避免转基因沉默的网络服务器 |
3. 网络服务发展面临的问题
网络服务发展中最困难的问题之一是服务的可持续性。一项研究表明,大约只有一半十年前开发的网络服务如今仍然可用。在调查 RRI 预测网络服务器时发现,许多此类服务已无法使用。这种不可持续性不仅给进行数据分析的用户带来不便,还导致实验结果无法重现。因此,网络服务开发者应确保论文发表后网络服务仍然可用,研究社区也应继续努力确保不可用工具的数量不再增加,例如通过维护网络服务存储库。
4. ResidualBind:分析 RNA - 蛋白质相互作用的深度学习工具
近年来,深度神经网络(DNNs)在预测 DNA 和 RNA 结合蛋白的序列特异性方面表现出了更好的性能。然而,为什么它们比依赖 k - mers 和位置权重矩阵的先前方法表现更好仍不清楚。
ResidualBind 是一种基于深度学习的软件包,它仅使用 RNA 序列作为输入特征来分析 RNA - 蛋白质相互作用,并进行全局重要性分析以实现模型可解释性。与之前为该任务设计的 DNNs 不同,ResidualBind 采用了由扩张卷积组成的残差块,这使得它能够拟合先前层未捕获的残差方差,同时考虑更大的序列上下文。此外,残差块中的跳跃连接促进了梯度流向较低层,改善了更深层次网络的训练。
5. ResidualBind 软件包详情
-
依赖项
:
- Python 3.5 或更高版本。
- Pandas、NumPy、SciPy、Matplotlib、H5py。
- TensorFlow 1.15 或更高版本。
- Logomaker(Tareen 和 Kinney)
-
源文件
:
-
residualbind.py:包含 ResidualBind 和 GlobalImportance 类。 -
helper.py:用于文件处理、加载数据和数据预处理的函数。 -
explain.py:用于计算机诱变和基于 k - mer 比对的基序可视化的函数。 -
E_RNAplfold、H_RNAplfold、I_RNAplfold、M_RNAplfold:分别计算外部环、发夹环、内部环和多环概率的 RNAplfold 脚本。
-
-
示例文件
:
-
generate_rnacompete_2013_dataset.py:处理 RNAcompete 数据集的脚本。 -
train_rnacompete_2013.py:在所有 RNAcompete 实验上训练 ResidualBind 模型。 -
test_rnacompete_2013.py:在所有 RNAcompete 实验上测试 ResidualBind 模型。 -
global_importance_analysis.py:系统地在所有 RNAcompete 上运行全局重要性分析(GIA)实验。 -
Figure1_performance_analysis.ipynb:生成相关论文中 Fig. 1 的 Jupyter 笔记本。 -
Figure2_RBFOX1_analysis.ipynb:生成相关论文中 Fig. 2 的 Jupyter 笔记本。 -
Figure3_VTS1_analysis.ipynb:生成相关论文中 Fig. 3 的 Jupyter 笔记本。 -
Figure4_GC - bias_analysis.ipynb:生成相关论文中 Fig. 4 的 Jupyter 笔记本。
-
6. 数据处理流程
graph TD;
A[获取 2013 - RNAcompete 数据集] --> B[将序列转换为 one - hot 表示];
B --> C{选择转换方式};
C -->|Clip - transformation| D[将极端结合分数裁剪到 99.9 百分位];
C -->|Log - transformation| E[根据 log(S - SMIN + 1) 处理结合分数];
D --> F[转换为 z - score];
E --> F;
F --> G[随机拆分 set A 序列为训练集和验证集];
G --> H[使用 set B 数据进行测试];
H --> I[添加零填充使序列长度为 41 核苷酸];
I --> J[生成 rnacompetete2013.h5 文件];
7. 全局重要性分析示例
全局重要性分析(GIA)用于理解 ResidualBind 为何比先前方法表现更好。与仅识别单个序列局部特征内单个变体重要性的先前归因方法不同,GIA 量化了特征在整个序列群体中的全局重要性。通过 GIA 发现,除了序列基序外,ResidualBind 学习的模型还包括基序的数量、间距和序列上下文,如 RNA 结构上下文的正负效应和 GC 偏差。
例如,在分析 RBFOX1 基序(UGCAUG)时,不同数量的该基序嵌入到合成序列的不同位置,其局部重要性会发生变化。同样,对于其他基序和不同的序列组合,也能通过 GIA 揭示其对模型的重要性。
综上所述,无论是 RNA - RNA 相互作用预测网络服务的发展,还是 ResidualBind 在 RNA - 蛋白质相互作用分析中的应用,都为生物信息学领域的研究提供了重要的工具和方法,但同时也面临着一些挑战,需要开发者和研究社区共同努力解决。
RNA-RNA 与 RNA-蛋白质相互作用预测工具综述
8. 不同类型 RNA 相互作用研究现状对比
| RNA 类型 | 网络服务开发情况 | 可能原因 |
|---|---|---|
| CRISPR gRNA | 近年来开发众多 | 研究热度高,应用前景广 |
| miRNA 靶标 | 开发较少,十年前较流行 | 可能研究关注点转移 |
| snoRNAs 和 piRNAs | 未得到很好发展 | 相应研究领域关注不足 |
9. 网络服务可持续性的重要性及措施
网络服务的可持续性对于生物信息学研究至关重要。不可持续的网络服务会给用户带来诸多不便,如无法进行数据的有效分析,导致实验结果无法重现。为了提高网络服务的可持续性,开发者和研究社区可以采取以下措施:
1.
开发者层面
:确保在论文发表后,网络服务仍然能够正常运行和维护,及时修复出现的问题。
2.
研究社区层面
:提供网络服务存储库的维护,保证可用工具不断更新和补充,减少不可用工具的数量。
10. ResidualBind 优势总结
ResidualBind 在分析 RNA - 蛋白质相互作用方面具有显著优势,具体如下:
-
独特的模型结构
:采用扩张卷积组成的残差块,能够拟合先前层未捕获的残差方差,考虑更大的序列上下文,提高模型的性能。
-
良好的梯度流动
:残差块中的跳跃连接促进了梯度流向较低层,使得更深层次的网络能够更好地训练。
-
模型可解释性
:通过全局重要性分析(GIA),不仅可以识别序列基序,还能了解基序的数量、间距和序列上下文等因素对模型的影响,提高了模型的可解释性。
11. 实际应用中的考虑因素
在实际应用 ResidualBind 进行 RNA - 蛋白质相互作用分析时,需要考虑以下因素:
-
数据质量
:确保输入的 RNA 序列数据准确无误,避免因数据错误导致模型性能下降。
-
参数调整
:根据具体的研究需求,合理调整模型的参数,以达到最佳的分析效果。
-
结果验证
:对模型的输出结果进行验证,可以结合实验数据或其他方法进行交叉验证,确保结果的可靠性。
12. 未来发展趋势
随着生物信息学技术的不断发展,RNA - RNA 相互作用预测网络服务和 ResidualBind 等工具也将不断完善和发展。未来可能的发展趋势包括:
graph LR;
A[开发新算法] --> B[提高预测准确性];
C[结合多组学数据] --> B;
D[优化用户界面] --> E[提高用户体验];
F[加强服务可持续性] --> G[保障研究的连续性];
B --> H[推动生物医学研究发展];
E --> H;
G --> H;
- 算法创新 :开发更加高效和准确的算法,提高 RNA - RNA 和 RNA - 蛋白质相互作用预测的精度。
- 多组学数据整合 :结合转录组、蛋白质组等多组学数据,全面深入地研究 RNA 相互作用的机制。
- 用户体验优化 :开发更加友好的用户界面,降低使用门槛,方便更多的研究人员使用。
- 可持续性提升 :进一步加强网络服务的可持续性,确保研究的连续性和可重复性。
13. 总结
RNA - RNA 相互作用预测网络服务和 ResidualBind 在生物信息学领域中都具有重要的地位。网络服务为研究人员提供了便捷的工具,但面临着可持续性的挑战。而 ResidualBind 通过独特的模型结构和全局重要性分析,在 RNA - 蛋白质相互作用分析中表现出色。未来,随着技术的不断进步,这些工具将在生物医学研究中发挥更大的作用,为解决复杂的生物学问题提供有力支持。研究人员应关注这些工具的发展动态,合理应用它们来推动生物信息学研究的发展。
超级会员免费看
1万+

被折叠的 条评论
为什么被折叠?



