Datawhale AI春训营 学习笔记

第三届世界科学智能大赛合成生物赛道:蛋白质固有无序区域预测

上海科学智能研究院

任务:构建一个能够准确预测蛋白质内在无序区域(IDRs)的预测模型

task1:成功运行baseline,云端打包镜像版本,提交结果。

baseline仓库:魔搭社区

baseline使用方法:word2vec词向量模型处理向量,再使用贝叶斯模型训练并预测。

注意事项:备注好克隆仓库地址,用户名及密码,重新提交时,可删除codeup代码库中的文件,再进行克隆,然后提交。每天可提交三次。

task2:深入理解赛事

  • 序列标记,典型的特点就是输入与输出的文本长度相同
  • 词向量(Word Embedding),将词汇映射到低维连续向量空间,使得语义和语法相似的词在向量空间中距离相近。

其它方法:BERT模型

BERT 模型基于 Transformer 架构,完全依赖自注意力机制来处理序列数据。 Transformer 架构最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。BERT 的预训练过程包括两个主要任务:

  1. 掩码语言模型(Masked Language Model, MLM):在训练过程中,BERT 会随机掩盖输入序列中的一些词(通常用特殊标记[MASK] 替换),然后预测这些被掩盖的词。这种方式迫使模型理解句子的双向上下文。例如,在句子“今天天气很好,我们决定去公园散步”中,如果“决定”被掩盖,模型需要同时考虑“今天天气很好”和“去公园散步”来预测“决定”。

  2. 下一句预测(Next Sentence Prediction, NSP):BERT 还训练了一个二分类任务,即判断给定的两个句子是否是连续的。例如,给出句子 A 和句子 B,模型需要判断 B 是否紧接在 A 之后出现。这个任务有助于模型理解句子之间的逻辑关系。

可参考美团BERT实体识别:美团搜索中NER技术的探索与实践 - 美团技术团队

最近一次提交得分0.7022

学习中......

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值