从曲线拟合到机器学习:科学数据分析与计算智能探索
1. 引言
科学旨在理解和描述现实世界,以改善和丰富人类生活。然而,现实世界的结构和动态极其复杂,为了描述自然,我们需要建立简化和理想化的模型。这些模型虽有局限,但能保留特定的关键特征,具有实用价值。
实验与理论的辩证互动是现代科学的关键驱动力。实验数据需在特定模型或理论背景下才有意义,而理论思考若无实验验证则只是思维练习。数据分析是连接实验与理论的桥梁,它能从实验数据中提取和测试模型。
模型函数相较于单纯的数据列表有诸多优势,如能紧凑地表示感兴趣的量之间的关系,可用于插值和外推计算,还能探索最优属性。在当前科学中,根据对自然的了解程度,可分为以下三种情况:
|情况|描述|示例|
| ---- | ---- | ---- |
|情况 1|模型函数 f 理论或经验已知,可直接计算输出量| - |
|情况 2|函数 f 的结构形式已知,但参数值未知,可通过曲线拟合实验数据统计估计参数值|线性关系 y = a1 + a2x,a1 和 a2 为未知参数|
|情况 3|函数 f 的结构形式未知,可通过机器学习技术用实验数据建模| - |
当代分子科学常遇到这三种情况。自 20 世纪初科学革命以来,分子科学有了现代物理学的理论基础,但原子计算方法在处理复杂的分子研发问题时仍有局限。因此,分子科学主要面临情况 2 和 3,这也是从曲线拟合到机器学习方法的主要应用领域。
2. 优化
优化是确定数学函数的最优值(最小值和最大值)的过程。许多重要的科学问题本质上都是优化问题,也是从曲线拟合到机器学习的核心。
一个数学函