Datawhale AI春训营学习笔记

KBZJYBFCCCC

于 2025-04-27 17:53:10 发布

阅读量268

点赞数 5

CC 4.0 BY-SA版权

文章标签： Datawhale AI春训营

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/KBZJYBFCCCC/article/details/147565253

第三届世界科学智能大赛合成生物赛道：蛋白质固有无序区域预测

上海科学智能研究院

任务：构建一个能够准确预测蛋白质内在无序区域(IDRs)的预测模型

task1：成功运行baseline，云端打包镜像版本，提交结果。

baseline仓库：魔搭社区

baseline使用方法：word2vec词向量模型处理向量，再使用贝叶斯模型训练并预测。

注意事项：备注好克隆仓库地址，用户名及密码，重新提交时，可删除codeup代码库中的文件，再进行克隆，然后提交。每天可提交三次。

task2：深入理解赛事

序列标记，典型的特点就是输入与输出的文本长度相同
词向量（Word Embedding），将词汇映射到低维连续向量空间，使得语义和语法相似的词在向量空间中距离相近。

其它方法：BERT模型

BERT 模型基于 Transformer 架构，完全依赖自注意力机制来处理序列数据。 Transformer 架构最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。BERT 的预训练过程包括两个主要任务：

掩码语言模型（Masked Language Model, MLM）：在训练过程中，BERT 会随机掩盖输入序列中的一些词（通常用特殊标记[MASK] 替换），然后预测这些被掩盖的词。这种方式迫使模型理解句子的双向上下文。例如，在句子“今天天气很好，我们决定去公园散步”中，如果“决定”被掩盖，模型需要同时考虑“今天天气很好”和“去公园散步”来预测“决定”。
下一句预测（Next Sentence Prediction, NSP）：BERT 还训练了一个二分类任务，即判断给定的两个句子是否是连续的。例如，给出句子 A 和句子 B，模型需要判断 B 是否紧接在 A 之后出现。这个任务有助于模型理解句子之间的逻辑关系。

可参考美团BERT实体识别：美团搜索中NER技术的探索与实践 - 美团技术团队

最近一次提交得分0.7022

学习中......

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。