题目:On the use of real-world datasets for reaction yield prediction
文献来源:Chem. Sci., 2023, 14, 4997
代码:https://github.com/nsf-c-cas
简介:缺乏公开可用的、大型的、无偏不倚的数据集是机器学习(ML)方法在合成化学中应用的一个关键瓶颈。来自电子实验室笔记本(ELNs)的数据可以提供更少的偏见,大的数据集,但没有这样的数据集被公开。本文公开了来自大型制药公司ELNs的第一个真实世界数据集,并描述了其与高通量实验(HTE)数据集的关系。对于化学产量预测,这是化学合成的关键任务,属性图神经网络(AGNN)在 Suzuki–Miyaura和 Buchwald–Hartwig反应的两个HTE数据集上的表现与之前最好的模型一样好或更好。然而,在ELN数据集上训练AGNN并不会产生预测模型。在产量预测的背景下,作者讨论了使用ELN数据来训练基于ml的模型的含义。
主要内容:
-------------------------------------------
欢迎点赞收藏转发!
下次见!