论文解读:《BERT4Bitter: a bidirectional encoder representations from transformers(BERT)- based model for improving the prediction of bitter peptides》
文章地址:https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/btab133/6151716
DOI:https://doi.org/10.1093/bioinformatics/btab133
期刊:Bioinformatics(2区)
影响因子:6.937
发布时间:2021年2月26日
数据:https://github.com/Shoombuatong/Dataset-Code/tree/master/iBitter
服务器:http://pmlab.pythonanywhere.com/BERT4Bitter
1.文章概述
后基因组时代有大量的新可用肽序列,鉴定新型苦肽的自动计算模型的发展非常有必要。作者提出的BERT4Bitter是基于转换器(BERT)的双向编码器表示,用于预测直接来自氨基酸序列的苦肽,而不使用任何结构信息,这是第一次采用基于BERT的模型来识别苦肽。与广泛使用的机器学习型号相比,BERT4Bitter的ACC在交叉验证达到了0.861,在独立测试上达到了0.922。在独立数据集上BERT4Bitter优于现有的方法,ACC和MCC分别提高了8.0%和16.0%。
2.前言
许多药物本身拥有苦味和强烈的努力,旨在朝着改善味道的苦味,从而改善药物摄入量的符合,用于预测苦肽快速和准确识别工具的发展代表了药物开发和营养研究中的基本组分。 iBitter-SCM是基于刻录卡方法(SCM)的预测器,可以预测直接来自氨基酸序列的肽,使用20个氨基酸和400个二肽倾向分数。 iBitter-SCM在交叉验证和独立测试上ACC分别达到了0.871和0.844。
基于序列的预测因子,使用不同的特征编码方法构建,例如基于组成的特征,组合转变分布的特征和基于物理化学特性的特征。首先,与单个特征描述符的相比,各种特征描述符的组合可以有效地改善预测性能。但使用组合各种特征会包括冗余和嘈杂的信息,从而导致预测结果差。其次,可通过特征选择算法识别信息性特征来克服高维特征空间的问题,但这个过程是非常定时的,因为它需要多个手动,繁琐以及试用和攻击。在基于深度学习的方法中,基于自然语言处理(NLP)技术的原始数据自动生成特征,而无需系统的设计和选择特征编码。
在本研究中,将每种肽序列基于NLP技术被视为句子,其中20个氨基酸中的每一个被认为是单词。特别地,BERT4Bitter将肽序列作为输入将其传递给BERT方法,用于自动生成特征描述符,而无需系统的设计和选择特征编码。此外,作者还介绍了使用NLP启发的特征编码方法,即TF-IDF,Pep2Vec和FastText,用于表示肽序列,随后作为特征作为输入到机器学习(ML)的模型[决策树(DT) ,极端随机树(Etree),K近邻(knn),支持向量机(SVC),逻辑回归(LR),多层感知机(MLP),朴素贝叶斯(NB),随机森林(RF),支持向量机(SVM)和极端渐变升压(XGB)]。用于预测苦肽的BERT4Bitter的示意性框架在图1中示出。BERT4Bitter的优点和主要贡献可以概括如下:
- 使用原始肽序列,无需系统性设计和选择特征编码。
- 与氨基酸组合物(AAC),氨基酸指数(AAI),二肽组合物(DPC),伪氨基酸组合物(PseAAC)和三肽组合物(TPC)进行了对比。
- 基于BERT的模型BERT4Bitter优于现有方法(通过独立测试集评估的机器学习模型)。
- 开发了Web服务器。
3.数据
基准数据集BTP640由非冗余的320苦肽和320个非苦肽组成,按8:2比例随机分成训练集(BTP-CV )和独立测试集(BTP-TS)。BTP-CV数据集含有256个苦肽和256个非苦肽,而BTP-TS数据集含有64个苦肽和64个非苦肽。
4.方法
4.1 基于NLP的特征编码
基于NLP的方法已经成功地应用到跨越药物发现的几个领域,NLP的方法是自动将原始输入数据作为一组可解析功能(提供原始输入数据的功能)。本文中采用Pep2Vec和FastText形式的NLP的概念将肽序列转化为N-维的单词载体,其中单词表示20种天然存在的氨基酸。TFIDF方法用于将每个氨基酸从肽序列计算到N-维的载体中。
4.1.1 TFIDF
词频-逆向文件频率(TFIDF)是基于NLP中的信息检索技术,是最常用的文档表示方法之一。TFIDF由包含词频(TF)和逆向文件频率(IDF)的两个主要部分组成,其中TF表示给定文档J(DJ)中的词I(TI)的发生次数,而IDF则指的是逆向文件频率的感兴趣。
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
4.1.2 Pep2Vec
Pep2Vec是一种基于Word2Vec用于生成生物序列特征的技术,2016年,Aggarwala和Voight介绍了一种窗口方法,可以通过将序列除以K-gram来表示每个序列作为N维单词嵌入矢量,这可以捕获使用分层学习过程获得的生物物理和生化特性。在Word2Vec中产生单词嵌入矢量有两个主要的神经架构:连续词袋模型(CBOW)和Skip-gram。
CBOW是已知当前词的上下文,来预测当前词,而Skip-gram则相反,是在已知当前词的情况下,预测其上下文。
4.1.3 FastText
通常,每种肽序列被视为包含许多单词的句子,每个单词由一袋字符n-gram组成。FastText方法通过在边界插入这些特殊符号来使用单词,此信息可以从其他字符序列中提高前缀和后缀之间的辨别力。
和CBOW一样,fastText模型也只有三层:输入层、隐含层、输出层(Hierarchical Softmax),输入都是多个经向量表示的单词,输出都是一个特定的target,隐含层都是对多个词向量的叠加平均。不同的是,CBOW的输入是目标单词的上下文,fastText的输入是多个单词及其n-gram特征,这些特征用来表示单个文档;CBOW的输入单词被onehot编码过,fastText的输入特征是被embedding过;CBOW的输出是目标词汇,fastText的输出是文档对应的类标。
值得注意的是,fastText在输入时,将单词的字符级别的n-gram向量作为额外的特征;在输出时,fastText采用了分层Softmax,大大降低了模型训练时间。
4.2 深度学习
作者采用了三种流行和强大的NLP启发DL方法,即BERT,卷积神经网络(CNN)和长短期记忆网络(LSTM),使用测试集(BTP-CV)数据集开发预测模型。
4.2.1 CNN
基于CNN的模型包括总共六层:一个嵌入层,一个1D卷积层,一个全局最大池化层,两个Dense层和一个Dropout层。嵌入层输入尺寸为21(20个氨基酸和填充空间),一维卷积层是有128的过滤器、卷积核大小为5、激活函数为Relu。为了减少原始数据集的维度以及压缩样本数量,在应用两个完全连接的图层之前添加了默认的1D全局最大池化层。第一个完全连接层包含50个具有Relu激活的隐藏节点,添加了Dropout为0.02的Dropout层防止模型过拟合。第二个完全连接层包含1个隐藏节点,具有模型的二进制分类的Sigmoid激活。为了获得高性能,同时提供较低的泛化误差,Adam算法用作优化器,而交叉熵损失方法被用作损耗功能。
4.2.2 LSTM
基于LSTM的模型包含五个层:一个嵌入层,一个LSTM层,两个完全连接层和一个Dropout层。基于LSTM的模型的体系结构类似于基于CNN的模型,只有两个例外:LSTM-based模使用具有50个单元的LSTM层构建的,排除了一个不必要的1D全局最大池化层。
4.2.3 BERT
基于BERT的模型是一种NLP启发的深度学习方法,其具有与基于CNN的模型相比有效地捕获更多全局上下文信息的全局接收领域。在本研究中,通过使用传统的BERT架构构建了基于BERT的模型,其架构也类似于LSTM的模型,只有两个例外:本文开发的BERT-based模型包含12层,其预训练的权重用作嵌入层;使用具有50个单元的双向LSTM层代替LSTM层。
4.2.4 常规机器学习的分类器
机器学习方法:DT,Etree,KNN,LR,MLP,NB,RF,SVC,SVM和XGB。
决策树(DT) ,极端随机树(Etree),K近邻(knn),支持向量机(SVC),逻辑回归(LR),多层感知机(MLP),朴素贝叶斯(NB),随机森林(RF),支持向量机(SVM)和极端渐变升压(XGB)
特征:AAC,AAI,DPC,PseAAC和TPC
通过使用10倍交叉验证方案的网格搜索过程获得了用于采用ML算法的最佳预测精度和最佳超参数(在补充表S1中呈现搜索范围)。最后,使用具有最高性能的参数集用于开发ML分类器。DT,KNN和NB分类器是通过使用其默认参数进行的。
5.结果和讨论
5.1 分析氨基酸和二肽性能
采用了GINI系数(MDGI)的平均减少的价值来排名和估计每个AAC和DPC特征的重要性,补充表S2列出了苦味和非苦肽的20个氨基酸的百分比值以及它们在使用BTP-CV数据集的预测模型中获得的两个类和其MDGI值之间的氨基酸组成差。此外,图2提供了显示DPC特征重要性的热图。
5.2 不同NLP特征编码的性能
使用十个众所周知的ML算法(即KNN,DT,ETREE,LR,MLP,NB,RF,SVC,SVM,以成对方式评估三个NLP启发特征编码(即FastText,Pep2Vec和TFIDF),通过10倍的交叉验证和独立测试来评估它们的预测结果。
在FastText,Pep2Vec和TFIDF方法中,将所有肽序列分成使用1-gram,2-gram和3-gram的单词。性能比较表明,TFIDF,PEP2VEC和FastText方法使用1-gram产生更好的苦肽预测性能(补充表S5)。因此,每种肽序列由100维载体表示并随后用于训练ML分类器。
5.3 不同NLP基于深度学习方法的性能
5.4 Bert4Bitter与其他机器学习算法的比较
5.5 Bert4bitter与现有方法比较
补充知识
1.一文读懂BERT(原理篇):https://blog.youkuaiyun.com/sunhua93/article/details/102764783
2.Keras BERT:https://github.com/CyberZHG/keras-bert/blob/master/README.zh-CN.md
3.tensorflow 2.0 版本基于BERT Tokenizer的文本分类:https://zhuanlan.zhihu.com/p/188684911