学术速运|阿斯利康-利用真实数据集进行反应产率预测

文章公开了首个来自大型制药公司电子实验室笔记本的真实世界化学数据集,并探讨了其在机器学习模型训练中的作用。尽管属性图神经网络在特定高通量实验数据集上的性能表现良好,但在ELN数据集上却无法产生有效的预测模型,揭示了使用此类数据的复杂性和挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

题目:On the use of real-world datasets for reaction yield prediction

文献来源:Chem. Sci., 2023, 14, 4997

代码:https://github.com/nsf-c-cas

简介:缺乏公开可用的、大型的、无偏不倚的数据集是机器学习(ML)方法在合成化学中应用的一个关键瓶颈。来自电子实验室笔记本(ELNs)的数据可以提供更少的偏见,大的数据集,但没有这样的数据集被公开。本文公开了来自大型制药公司ELNs的第一个真实世界数据集,并描述了其与高通量实验(HTE)数据集的关系。对于化学产量预测,这是化学合成的关键任务,属性图神经网络(AGNN)在 Suzuki–Miyaura和 Buchwald–Hartwig反应的两个HTE数据集上的表现与之前最好的模型一样好或更好。然而,在ELN数据集上训练AGNN并不会产生预测模型。在产量预测的背景下,作者讨论了使用ELN数据来训练基于ml的模型的含义。

主要内容:

-------------------------------------------

欢迎点赞收藏转发!

下次见!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值