符号回归中的模型验证、简化与选择
在符号回归(Symbolic Regression)领域,模型的验证、简化和选择是确保模型质量和性能的关键步骤。本文将介绍相关的理论和方法,并通过实际案例展示如何应用这些技术。
1. 信息矩阵与模型选择标准
1.1 费舍尔信息矩阵
费舍尔信息矩阵 (I(\theta)) 与参数估计的标准误差相关,其定义为:
((I(\theta))_{i,j} = -\frac{\partial^2}{\partial\theta_i\partial\theta_j} \log L(\theta))
其中,(L(\theta)) 是似然函数。费舍尔信息值越大,似然函数的峰值越陡峭,参数估计越精确(标准误差越低)。
1.2 模型选择标准
常用的模型选择标准包括 AIC(Akaike Information Criterion)、BIC(Bayesian Information Criterion)和 DL(Description Length)。对于符号回归模型,这些标准的计算相对简单,只需要模型给定数据的似然、训练观测数 (n)、模型参数数 (k) 以及噪声方差 (\sigma_{err}^2) 的近似值。
1.3 标准比较
以 Friedman 函数为例,生成 21 个不同的模型,并使用不同的标准进行选择。结果表明,在这个简单的例子中,BIC 的表现最好。同时,10 折交叉验证(CV)的结果与测试误差相关性良好,基于 CV 分数选择的最大树大小为 30 节点,与测试误差最佳的配置一致。
超级会员免费看
订阅专栏 解锁全文
1969

被折叠的 条评论
为什么被折叠?



