文章目录
论文基本情况
作者单位:台湾省台北医科大学
发表期刊:《Briefings in Bioinformatics》,2020年期刊影响因子:11.622
数据和代码:https://github.com/khanhlee/bert-enhancer
1. 研究背景
生物背景:增强子的鉴定一直是生物信息学中的一项重要任务,它是DNA上一小段可与蛋白质结合的区域,与特定蛋白质结合之后,基因的转录作用将会加强。增强子可能位于基因上游(DNA链上的特定点朝5’端出现的DNA),也可能位于下游(DNA链上的特定点朝3’端出现的DNA),如下图所示。算法背景:BERT是一个基于双向编码器是一种简单而强大的语言模型,BERT采用了语境化词嵌入的概念,以捕捉词语出现时的语义和上下文。本文将DNA序列视为句子,然后使用BERT模型将它们转换成固定长度的数字矩阵,再利用2D CNN进行最终的预测。

2. 实验数据
使用iEnhancer-2L的研究数据,该数据来自9个不同的细胞系,并将其分割成200 bp的片段,然后通过 CD-HIT去除相似相高于20%的片段,最终得到1484个增强子和1484个非增强子作为训练数据,200个增强子和200个非增强子用作测试数据。
备注:在测试集非增强子中有两个DNA名称重复,重复的DNA名称为:hg19_ct_UserTrack_3545_22rangechr1368878800-693675995pad0和hg19_ct_UserTrack_3545_23rangechr277310893-7

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



