神经网络的经验学习:函数估计问题解析
1. 函数估计问题概述
函数估计问题旨在从一系列可能带有噪声的观测值 $(x_i, y_i)$ 中估计未知函数 $f(x)$。这里,$x$ 是输入或自变量向量,$y$ 是该函数的输出变量。为避免混淆,回归、函数估计或建模都指从可用数据集获取解、近似函数或模型的过程,$f(x)$ 被称为真实或目标函数,目标是用导出的估计对新的、未见过的情况下真实函数的行为进行预测。
在解决该问题前,需认识其固有特性,这些特性与解决问题的特定工具无关,也为分析和比较不同解决方案奠定基础。
- 数据有限性 :有限数据通常仅在输入空间的有界区域内可用。只有当模型基于适用于整个输入空间的物理考虑得出时,将近似函数外推到该区域之外才有意义;否则,外推等同于提出无证据支持的假设,既无意义又危险。因此,搜索未知函数应局限于有数据的输入空间部分。
- 归纳性 :该问题具有归纳性,需通过概括部分、局部且常不准确的信息来获得全局有效的模型。由于其归纳性质,问题存在一些令人困扰的特性,如无法保证有解,任何方法得出的模型的有效性也无法进行数学证明。模型验证只能视为由任何可用数据触发的动态过程,导致模型假设和模型测试的无尽循环。此循环可能证明任何提出的模型的低效性,但无法明确其正确性。
- 不适定性 :函数估计问题是不适定的。判断给定函数是否为潜在解的唯一方法是测量其对可用数据的拟合精度。然而,对于每组给定的数据点,都存在无数个与真实函数任意不同但能很好近似数据的函数。所有可用的数据回归工具(包括神经网络)的实现都会产生相同数量的不同近似函数,这些函数都是函数估计