论文解读:基于BERT和二维卷积神经网络的迁移结构,从序列信息中识别DNA增强子

论文基本情况

作者单位:台湾省台北医科大学
发表期刊:《Briefings in Bioinformatics》,2020年期刊影响因子:11.622
数据和代码:https://github.com/khanhlee/bert-enhancer

1. 研究背景

生物背景:增强子的鉴定一直是生物信息学中的一项重要任务,它是DNA上一小段可与蛋白质结合的区域,与特定蛋白质结合之后,基因的转录作用将会加强。增强子可能位于基因上游(DNA链上的特定点朝5’端出现的DNA),也可能位于下游(DNA链上的特定点朝3’端出现的DNA),如下图所示。算法背景:BERT是一个基于双向编码器是一种简单而强大的语言模型,BERT采用了语境化词嵌入的概念,以捕捉词语出现时的语义和上下文。本文将DNA序列视为句子,然后使用BERT模型将它们转换成固定长度的数字矩阵,再利用2D CNN进行最终的预测。

在这里插入图片描述

2. 实验数据

使用iEnhancer-2L的研究数据,该数据来自9个不同的细胞系,并将其分割成200 bp的片段,然后通过 CD-HIT去除相似相高于20%的片段,最终得到1484个增强子和1484个非增强子作为训练数据,200个增强子和200个非增强子用作测试数据。
备注:在测试集非增强子中有两个DNA名称重复,重复的DNA名称为:hg19_ct_UserTrack_3545_22rangechr1368878800-693675995pad0和hg19_ct_UserTrack_3545_23rangechr277310893-7

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值