是现在我们用的深度学习(最大架构)
我脑洞又双发,扩展了implicitNN(与其区别),如下
思想一句话:优化器在外边,不在里边

理解需要解耦骨干梯度与参数的梯度求法,梯度来源于损失的固有理念
向前传播整个网
向反传播整个网
这个网络可牛逼了
1.能永久学习
2.不会陷入局部最优或鞍点(平地?不存在的)
3.向下兼容的扩展能力很强,比如我要增加一下网络深度,可以直接加个新层
想法是这样,可是咋训呢?

2
算子构建网络
构建路径(前向【均穿透型】,反向【穿透/非穿透型】,如下图)
前向有属性,输入与输出
反向非穿透型有属性,上传梯度
前向路径,选择自动冻结(给反向)
解冻,反向路径
路径更新(用冻结的前向和反向路径更新参数)
主路径型编程

model G D
f1 : z->G->D->prob_fake
f2 : x->

本文探讨了一种改进的神经网络架构,优化器不再内置,允许永久学习且避免局部最优。作者提出了一个解耦骨干梯度与参数梯度的新方法,并讨论了如何训练此类网络。通过算子构建网络,使用前向和反向路径更新参数,作者建议可能可以消除逐层反向传播,提高训练效率。此外,文章还提出了将批量归一化改进的思路,以适应不同层的批大小需求。
最低0.47元/天 解锁文章
923

被折叠的 条评论
为什么被折叠?



