【Datawhale AI夏令营】分子性质AI预测挑战赛Task 1

AI预测PROTACs降解能力

最新推荐文章于 2025-12-03 20:31:34 发布

原创最新推荐文章于 2025-12-03 20:31:34 发布 · 501 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#AI夏令营 #Datawhale #夏令营

1.背景

在当今科技日新月异的时代，人工智能（AI）技术正以前所未有的深度和广度渗透到科研领域，特别是在化学及药物研发中展现出了巨大潜力。精准预测分子性质有助于高效筛选出具有优异性能的候选药物。以PROTACs为例，它是一种三元复合物由目标蛋白配体、linker、E3连接酶配体组成，靶向降解目标蛋白质。本次大赛聚焦于运用先进的人工智能算法预测其降解效能，旨在激发参赛者创新思维，推动AI技术与化学生物学的深度融合，进一步提升药物研发效率与成功率，为人类健康事业贡献智慧力量。通过此次大赛，我们期待见证并孵化出更多精准、高效的分子性质预测模型，共同开启药物发现的新纪元。

2.任务

选手根据提供的demo数据集，可以基于demo数据集进行数据增强、自行搜集数据等方式扩充数据集，并自行划分数据。运用深度学习、强化学习或更加优秀人工智能的方法预测PROTACs的降解能力，若DC50>100nM且Dmax<80% ，则视为降解能力较差（demo数据集中Label=0）；若DC50<=100nM或Dmax>=80%，则视为降解能力好（demo数据集中Label=1）。

3.Task 1：初步了解，跑通baseline

在Datawhale贡献者团队的帮助下体验了一站式 baseline

导入库： pandas（用于数据处理和分析）和 LGBMClassifier（决策树分类器）等。
读取数据：代码通过使用 pd.read_excel 函数从文件中读取训练集和测试集数据，并将其存储在 traindata-new.xlsx 和 testdata-new.xlsx 两个数据框中。
特征工程：
- test数据不包含 DC50 (nM) 和 Dmax (%)，将train数据中的 DC50 (nM) 和 Dmax (%)删除。
LGB树模型训练和预测：
- 创建了一个 LGBMClassifier 的实例，即LGB分类器。
- 使用 fit 函数对训练集中的特征和目标进行拟合，训练了决策树模型。
- 对测试集使用已训练的模型进行预测，得到预测结果。
- 将预测结果和相应的 uuid 组成一个DataFrame，并将其保存到 submit.csv 文件中。
- 提交后分数是0.7064。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。