分子科学中机器学习的应用与挑战
在分子科学领域,预测分子的各种性质是一项重要任务,例如预测分子的沸点。传统的第一性原理计算方法存在诸多局限性,而机器学习则为解决这类问题提供了新的途径。
1. 传统方法的局限性
第一性原理计算主要包含电子结构计算和分子动力学(MD)模拟两个关键步骤。在MD模拟中,除氢以外的重原子核量子效应小,可当作经典粒子处理,通过求解牛顿方程计算其运动。势能面是MD的关键,它提供作用在每个原子上的力。然而,第一性原理计算成本极高,计算一个化合物的沸点可能需要数天到数月。
此外,虽然有一些经验规则可用于估算沸点,如Trouton规则指出许多液体的汽化焓与沸点之比接近常数,但第一性原理方法仍不适合大多数研究者。原因在于并非所有人都熟悉量子化学和分子模拟,也并非都有足够的计算资源进行这些计算。而且,花费大量时间仅获取一个分子的一个性质效率极低,同时经济可行的第一性原理方法的准确性也不足以做出令人满意的预测。
2. 机器学习方法
2.1 数据获取与预处理
在数据驱动的方法中,数据是核心。数据质量是机器学习模型成功的关键,有“垃圾进,垃圾出”的说法,即使用人工标注数据训练的监督学习模型,其性能取决于数据质量。数据量也很重要,尤其是训练深度学习模型时,大量数据可避免过拟合。
分子科学的数据通常来自实验和计算两个来源。实验数据质量高,但耗时且稀缺;计算数据更丰富,但质量受计算理论水平限制。对于沸点预测,有高质量的实验数据,如美国国家标准与技术研究院(NIST)/热力学研究中心(TRC)的SOURCE数据存档系统包含超过12000个分子的正常沸点实验测定值。在示例中,使用的是计算数据,从QM
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



