符号回归高级技术:知识集成方法详解
1. 高级技术概述
在过去几十年里,符号回归(SR)发展出了多种算法扩展技术。这些技术有的显著拓宽了可解决问题的范围,有的提升了 SR 算法的效率、鲁棒性,还有的改进了模型的准确性。下面将重点介绍将先验知识融入 SR 的不同技术。
2. 知识集成的重要性
所有监督学习方法都借助数据来学习自变量和因变量之间的未知依赖关系。很多时候,存在一些额外的知识或辅助信息能帮助描述这种依赖关系。在这种情况下,考虑如何将这些信息与数据结合起来,以改进模型或提高学习过程的效率就显得尤为重要。辅助信息可用于减少过拟合,或提高模型的外推能力。
最常见的集成先验知识的方法是定义特定问题的模型结构。在 SR 中,以数学表达式形式呈现的模型表示为结合基于知识和基于数据的方法提供了直观途径。例如,通过形状约束或模型结构模板,即使在数据有限的区域或进行外推时,也能生成能很好预测系统行为的模型。
知识集成在自然科学领域运用监督学习方法时尤为关键。在这些领域,许多主要机制通常可以用基于物理的模型来描述,这些模型允许外推。这与纯粹基于经验数据的模型形成对比,后者仅在用于训练模型的观测范围内有效。不过,对于那些难以精确描述或计算成本极高的现象,基于数据的模型常可作为基于物理模型的替代。
3. 示例应用
3.1 大气 CO₂ 浓度预测
大气 CO₂ 浓度的长期观测时间序列呈现出明显的周期性模式,这是太阳周期的结果。即便只有一两年的观测数据,我们也知道该时间序列应具有周期性。在 SR 中,可利用这一知识确保所有模型在未来预测时都呈现出这种周期性模式。
超级会员免费看
订阅专栏 解锁全文
950

被折叠的 条评论
为什么被折叠?



