33、神经网络训练：成本函数、误差估计与数据结构处理-优快云博客

本文链接：https://blog.youkuaiyun.com/fox11/article/details/154860459

神经网络训练：成本函数、误差估计与数据结构处理

1. 成本函数

典型的误差函数可以写成所有 $T$ 个训练模式的单个项之和：
[E = \frac{1}{T} \sum_{t=1}^{T} E_t]
其中单个误差 $E_t$ 取决于网络输出 $y(x_t, w)$ 和给定的目标数据 $y_d^t$。常用的平方误差为：
[E_t = \frac{1}{2} (y(x_t, w) - y_d^t)^2]
它可以从最大似然原理和高斯噪声模型推导得出。在某些分布假设下，如等方差性，该公式能得到相对简单的误差导数和渐近最优估计。然而，在实际应用中，这些假设常常被违反，这可能会显著降低神经网络的预测可靠性。

目标数据中的异常值对学习有很大影响，这也是将原始时间序列缩放到零均值和单位方差的结果。这种影响在包含大冲击的金融和经济数据中尤为严重。金融时间序列分析困难的另一个原因是异方差性，即目标变量的方差随时间变化的情况。我们将特别考虑方差与输入相关的情况：$\sigma_t^2 = \sigma^2(x_t)$。

为减少异常值和异方差性带来的问题，我们提出两种方法：

1.1 使用 LnCosh 进行稳健估计

金融时间序列中异常值很常见，通常由“信息冲击”引起，如政府数据公布或公司股息支付与市场预期不符。这些冲击表现为受影响资产轨迹的不连续性。为了对这种冲击具有鲁棒性，常使用不高估大误差的成本函数，如：
[E_t = |y(x_t, w) - y_d^t|]
更平滑的版本是：
[E_t = \frac{1}{a} \ln \cosh (a (y(x_t, w) - y_d^t))] <