论文解读:《一种利用二核苷酸One-hot编码器识别水稻基因组中N6甲基腺嘌呤位点的卷积神经网络》

论文解读:《A Convolutional Neural Network Using Dinucleotide One-hot Encoder for identifying DNA N6-Methyladenine Sites in the Rice Genome》

文章地址:https://www.sciencedirect.com/science/article/abs/pii/S0925231220315137
DOI:https://doi.org/10.1016/j.neucom.2020.09.056
期刊:Neurocomputing(二区)
影响因子:5.719
发布时间:2020年9月2日
Web服务器:http://iRicem6A-CNN.aibiochem.net
数据:1760样本-下载链接;154000样本-下载链接

1.文章概述

N6-甲基腺嘌呤(N6-Methyladenine,m6A)是重要的表观遗传修饰之一,与各种DNA过程的控制有关。通过传统的方法进行全基因组m6A分析是基础,但需要很长时间。作者提出了一个新的方案:iRicem6A-CNN,用于识别水稻基因组中的m6A位点,该方案采用二核苷酸(2-mer)One-hot编码技术,通过卷积神经网络产生输入张量进行预测,五倍交叉验证和独立测试的预测精度(ACC)分别达到了93.82% 和96.19% ,表现优于其他可用的预测器。实验结果表明,只有基于二核苷酸One-hot的iRicem6A-CNN能够表现出较高的性能,并且比采用单核苷酸(1-mer)One-hot的模型具有更稳定、更稳健的性能。

2.背景

N6-甲基腺嘌呤(N6-Methyladenine,m6A)是DNA的一种重要化学修饰产物,广泛存在于从真核生物到原核生物的各种生物体内,并与DNA复制、DNA修复和转录调控有关。DNA甲基化的基因组分析已成为下一代测序技术,尤其是单分子实时测序技术的应用越来越广泛。m6A位点的全基因组分布已经有了更好的特征,这导致了对其生物学功能的更好的理解。例如,全基因组的m6A位点研究揭示了m6A在不同的真核生物中的不同调节功能,并表明原核生物中的m6A作为一种标记,用于区分入侵的外来DNA和宿主DNA。
2018年,zhou等人利用 smrt 证明了水稻基因组中0.2% 的腺嘌呤是m6A甲基化的,自从这一发现以来,各种基于机器学习的计算水稻基因组中m6A的方法如雨后春笋般涌现。2019年,chen等人开发了 im6A-Pred,一种基于支持向量机(SVM)的方法,该方法基于包含1760个样本的基准数据集进行训练,准确率(ACC)达到83.13% 。随后,在传统机器学习算法(如 svm、随机森林(RF)和马尔可夫链模型(markov chain model)的基础上发展了其他方法来识别水稻基因组中的m6A位点,这些方法包括:im6A-DNCP、MM-m6Apred、SDM6A、iN6-methylat和iDNAm6A-rice,其中iDNAm6A-rice的ACC最高,为91.7% 。
在这项研究中,作者开发了一个新的方法:iRicem6A-CNN,来提高预测水稻全基因组m6A位点的准确性。作者采用了一个二核苷酸One-hot编码,将DNA序列转换成张量,然后输入设计良好的CNN进行模型优化。在5倍的交叉验证中ACC为93.82% ,在独立测试中ACC为96.19%。实验结果表明,采用二进制One-hot编码的iRicem6A-CNN比采用单核苷酸One-hot编码的iRicem6A-CNN具有更高的鲁棒性和准确性。指标比较结果表明,iRicem6A-CNN具有较好的性能,这不仅是因为它能够稳定地识别阳性样本,还因为它能够更准确地识别阴性样本。

3.数据

分别由 chen等人和 lv等人建立了两个广泛使用的水稻基因组m6A基准数据集,分别标记为Chen-rice-m6A和 Lv-m6A-rice。Chen-rice-m6A数据集由1760个样本组成,其中一半为阳性样本,另一半为阴性样本,已被基于非深度学习算法的报道模型广泛应用。Lv-m6A-rice数据集由154000个阳性样本和154000个阴性样本组成,且被lv等人用在了iDNAm6A-rice方法上,被Yu等人用在了SNNRicem6A方法上。两个数据集中的序列长度为41碱基(bp),中心位置各有一个腺嘌呤(A)。作者考虑到CNN模型需要大量数据的特性,所以采用Lv-m6A-rice数据集进行模型训练,采用Chen-rice-m6A数据集进行独立测试,以方便比较。

4.方法

4.1 特征编码

在这里插入图片描述

4.2 模型框架

在这里插入图片描述

5.结果

5.1 基于不同编码器的模型比较

在这里插入图片描述
在这里插入图片描述

5.2 与最先进的模型进行比较

在这里插入图片描述

6.结论

在这里,为水稻基因组中m6A位点开发了一种新的基于深度学习的方法:iRicem6A-CNN。该方法输入模型的DNA序列首先转换成一个二核苷酸的One-hot编码张量。作者用实验证明,二核苷酸的One-hot编码模型的性能优于一分体一热编码模型,并且在不同的预测概率阈值下表现出更强的鲁棒性。应用该模型进行水稻基因组m6A位点检测,结果表明,该模型具有较高的5倍交叉验证准确率(93.82%)和独立测试准确率(96.19%) ,是水稻基因组 m6A位点的最佳预测指标之一。作者的分析和比较表明,iRicem6A-CNN不仅能够准确地预测m6A阳性样本,而且能够降低阴性样本识别的错误率。此外,还为iRicem6A-CNN提供了一个用户友好的网络服务器。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值