学习和架构确定算法(ALADIN)在神经网络中的应用
1 引言
在神经网络领域,确定多层前馈神经网络的最小架构是一项关键任务。ALADIN(Algorithms for Learning and Architecture Determination)家族的算法通过停用冗余隐藏单元来实现这一点,从而在训练过程中确定网络的最小架构。这些算法不仅提高了训练效率,还增强了网络的泛化能力。本文将详细介绍ALADIN和Fast ALADIN算法的原理、应用及其实验评估。
2 广义训练标准
为了有效地训练前馈神经网络,首先需要定义一个广义的训练标准。该标准不仅考虑了网络的输出误差,还考虑了隐藏单元对训练过程的影响。广义训练标准的引入有助于开发一系列快速学习算法,从而加速训练过程并提高训练效果。
2.1 目标函数
考虑一个前馈神经网络,该网络根据一组关联 ((Y_k, X_k)),(k=1,2,\ldots,m) 进行训练,其中 (X’ k = [X {1,k} X_{2,k} \ldots X_{ni,k}]) 是网络的输入,而 (Y’ k = [Y {1,k} Y_{2,k} \ldots Y_{no,k}]) 是相应的输出。神经网络训练通常基于以下目标函数的最小化:
[ E = \sum_{k=1}^m E_k ]