PlncRNA-HDeep:使用基于两种编码风格的混合深度学习进行植物长非编码 RNA 预测

长链非编码 RNA (lncRNAs) 在调控生物活动中起着重要作用,其预测对探索生物过程具有重要意义。长短期记忆 (LSTM) 和卷积神经网络 (CNN) 可以自动从编码的 RNA 序列中提取和学习抽象信息,以避免复杂的特征工程。集成模型从多个角度学习信息,并显示出比单个模型更好的性能。将 RNA 序列分别视为句子和图像来训练 LSTM 和 CNN,然后将训练好的模型杂交以预测 lncRNAs,这是可行且有趣的。到目前为止,lncRNAs 有多种预测因子,但很少有预测因子被提议用于植物。一个可靠而强大的植物 lncRNA 预测因子是必要的。

1.编码方式

One-hot 是一种常见的编码样式 [30]。这里 one-hot 编码的规则是这样的,A 被编码为 (1, 0, 0, 0)T,T 编码为 (0, 1, 0, 0)T,C 编码为 (0, 0, 1, 0)TG 编码为 (0, 0, 0, 1)T.然后将每个样本序列编码成一个 4 行 N 列的 0-1 矩阵(类似于二维灰度图像),其中 N 被设置为所有样本中最长的序列长度。对于那些序列长度小于 N 的样本,对其空列执行零填充(图 D)。4b)。
在这里插入图片描述

2模型结构

lncRNA-LSTM 是我们之前研究中构建的基于 LSTM 的模型 [29]。其架构包含一个词嵌入层、一个双向 LSTM 层和一个全连接层。在双向 LSTM 层中,单位设置为 64,dropout rate 设置为 0.4。在全连接层中,选择“sigmoid”作为激活函数。选择二进制交叉熵损失函数来计算损失,该函数使用 “Adam” 优化器进行优化。每层的参数都通过反向传播进行更新。每个 p 核苷酸编码的样本序列都输入为 4p-维向量转化为 lncRNA-LSTM。与 [29] 中 lncRNA-LSTM 的概述不同,这里的输出被映射到 [0, 1] 区间以获得置信概率而不是标签。它的值表明相应样本被预测为 lncR

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值