15、回归与模型选择：从理论到实践-优快云博客

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/152346825

回归与模型选择：从理论到实践

1. 多项式回归中的误差分析

在多项式回归中，误差的变化呈现出有趣的规律。当使用最小二乘法进行回归时，随着多项式次数的增加，误差的变化并非单调递减。在图 4.15 中，展示了不同回归方法的误差比较。其中，(a) 图比较了六种回归方法的误差，尽管优化方法存在差异，但它们都能产生低误差的解。(b) 图显示了最小二乘回归误差随多项式次数增加的变化情况，在回归中使用二次项之前，误差迅速下降。然而，当加入更多多项式项时，如 (c) 图所示，回归过程中的整体误差实际上会略有增加。这表明仅仅增加项数并不能改善误差，这一点起初可能有悖直觉。例如，简单的抛物线拟合产生的误差大约是十次多项式的一半。

这种现象为后续的模型选择提供了重要的启示。在选择模型时，不能仅仅追求模型的复杂度，而需要综合考虑误差和模型的简洁性。

2. 奥卡姆剃刀与帕累托原则

回归不仅仅是选择一个模型并进行最小二乘拟合这么简单。在选择模型时，需要考虑多个因素，以实现对数据更好、更具可解释性的描述。这一思想可以追溯到威廉·奥卡姆（William of Occam）提出的简约法则，即奥卡姆剃刀（Occam’s razor）。该法则指出，在竞争的假设中，应选择假设最少的那个；当两个竞争理论做出完全相同的预测时，较简单的那个更有可能是正确的。这一哲学思想在物理和生物科学中被广泛应用于建立描述观察现象的控制方程。

同时，维尔弗雷多·帕累托（Vilfredo Pareto）的工作也强调了简约性的重要性。帕累托在经济学、社会学等多个领域做出了重要贡献，他提出的 80/20 规则，即帕累托原则（Pareto principle），在商业和咨询管理中被广泛应用。在模型选择中，