第三届世界科学智能大赛合成生物赛道:蛋白质固有无序区域预测
任务:构建一个能够准确预测蛋白质内在无序区域(IDRs)的预测模型
task1:成功运行baseline,云端打包镜像版本,提交结果。
baseline仓库:魔搭社区
baseline使用方法:word2vec词向量模型处理向量,再使用贝叶斯模型训练并预测。
注意事项:备注好克隆仓库地址,用户名及密码,重新提交时,可删除codeup代码库中的文件,再进行克隆,然后提交。每天可提交三次。
task2:深入理解赛事
- 序列标记,典型的特点就是输入与输出的文本长度相同
- 词向量(Word Embedding),将词汇映射到低维连续向量空间,使得语义和语法相似的词在向量空间中距离相近。
其它方法:BERT模型
BERT 模型基于 Transformer 架构,完全依赖自注意力机制来处理序列数据。 Transformer 架构最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。BERT 的预训练过程包括两个主要任务:
-
掩码语言模型(Masked Language Model, MLM):在训练过程中,BERT 会随机掩盖输入序列中的一些词(通常用特殊标记[MASK]
-
下一句预测(Next Sentence Prediction, NSP):BERT 还训练了一个二分类任务,即判断给定的两个句子是否是连续的。例如,给出句子 A 和句子 B,模型需要判断 B 是否紧接在 A 之后出现。这个任务有助于模型理解句子之间的逻辑关系。
可参考美团BERT实体识别:美团搜索中NER技术的探索与实践 - 美团技术团队
最近一次提交得分0.7022
学习中......