不连续学习:原理、模型与挑战
在机器学习领域,不连续学习是一种引人注目的现象,它涉及到在特定训练集大小下,泛化误差突然下降的“顿悟”式转变。这种转变与学习过程中离散自由度的调整密切相关,下面我们将深入探讨不连续学习的相关内容。
不连续转变的本质
不连续转变并非相空间离散性质的简单结果。以两个Ising向量J和T的重叠为例,虽然存在最小非零重叠值$R_{min} = 1 - \frac{2}{N}$,但当$N \to \infty$时,$R_{min} \to 0$。在Ising场景中,不连续转变发生时师生重叠$R \approx 0.695$,其原因在于接近1的重叠耦合向量极少,在学习早期就被淘汰,导致在$R = 1$附近迅速形成负熵带,当该负熵带与$R = 0$附近的负熵带合并时,最终转变发生。
反向楔形感知机
反向楔形感知机是一种特殊的感知机模型,它在输入分类上与普通感知机类似,但激活函数采用了非单调的形式:
$\sigma = sgn((\lambda - \gamma)\lambda(\lambda + \gamma))$
这个激活函数的非单调性使得输出为正的输入可能具有大于$\gamma$或在$(-\gamma, 0)$区间内的稳定性,同样对于输出为负的输入也存在类似的模糊性。因此,反向楔形感知机的状态由额外的离散自由度(可称为每个输入的内部表示)来表征,这意味着具有相同参数$\gamma$的两个反向楔形感知机可能对一组示例给出相同的输出,但分类的内部组织不同。
尽管反向楔形感知机看起来有些人为设计的痕迹,且目前没有生物学证据表明具有非单调激活函数的神经元存在,但它具有多层网络的标志性特征——内部表示,这赋
超级会员免费看
订阅专栏 解锁全文
12万+

被折叠的 条评论
为什么被折叠?



