早点关注我,精彩不错过!
数学魔术是孩子最好的逻辑思维启蒙导师,MatheMagcian数学魔术课程火热报名中!
欢迎点击《数学魔术师种子班开班啦!——暨2025数学魔术冬令营通知》并咨询微信1035312177(备注:数学魔术课程咨询)报名!名额有限,先到先得!
时间过去大半年,姜萍事件就如同冷暴力一般,云淡风轻地飘过,不留下一丝痕迹。既然无力改变,那就随他去吧。但当时我一直念念不忘的,还有当时决赛中出现的2道深度学习背景的证明题,可谓是和我日常的算法炼丹工作背景出奇地契合,而这种理论层面的一点窥探,也能满足一点对平静的工作内容神圣的想象。
当然以我现在的水平,花大把时间精力独立解出此题已是奢侈和困难,在参考了众多资料后,得一解答,并聊一点想法,足矣。
在2024阿里巴巴全球数学竞赛决赛中的应用于计算数学部分,一共有2和6两道深度学习背景的题目。其中2是关于网络的局部优化动力学,探讨最基本的随机梯度下降的训练方法的执行结果,是否存在一些性质结果,以便尝试从边界上指导一下训练的方向;6则是近年炙手可热的Scaling Law相关的证明,虽然只是一个特例,但又对这个有点经验式的丑陋的定律又有了一点认识的安全感。
本篇先讲第2题。
原题:
先看参考解答:
由于距离大学学线性代数、矩阵计算这些内容已实在久远,在进行这些矩阵计算的推导中,费了我不少功夫。不过好在方向性把控得还好,所以借助一些资料查阅也把证明过程给理了出来。
如果仅从数学考试题的角度评价,这题只能算是矩阵论课程的中规中矩的考试题,如果熟练掌握这些如谱范数、F范数,还有正定的对称矩阵的特征向量组的结构特点等内容,得到结论应该不难。其核心的计算技巧就是利用矩阵的对角化,把向量表示在新的特征向量构成的基上,于是整个过程就很顺畅能推导下去。放缩部分的话,也是很基础的关于最大特征值的放缩,和平方恒正的放缩,都是最基础的内容。
但是此题真正的价值,应该在于其神经网络背景下的实际性质的意义。这里和一般网络不同,首先进行了一阶Taylor展开,使得变成一个线性网络,这一步已经和实际网络有比较大的区别了。而第1问的结论说明,在神经网络的优化过程中,如果是梯度下降法,不用担心某次的损失函数爆炸,它是有关于Sigma的F范数和W0的界的,不会超出。第2问则考察了更常用的sgd方法下,当损失的期望有界时,对于Sigma矩阵的F范数的界的计算。
这里的Sigma矩阵,实际上是loss梯度的系数矩阵,这里的变量取dirta_w来计,也叫Fisher矩阵,用其F范数,可以衡量在一个极值点处的图像是否平缓。比如我们也常用Hessain矩阵的最大特征值,迹等来衡量。而第2问的结论说明,这个衡量值的上界,和维度无关,也就是我们可以放心地扩大规模,而不必担心其F范数随着发散,因为已经求得它的上界之和s步长,b批次大小和对齐系数dirta有关。
这个证明也自然说明,sgd方法(实际上是bgd)能够获得平坦的极值点,这也被认为是泛化性的由来,即参数值的扰动对结果影响不大,灵敏度低,说明在不错的解的范围内,而不是一个特殊的异常解而已。
至于题设中提到的对齐性质,虽然作为条件给出,但也是可以证明的,相关论文为《The alignment property of SGD noise and how it helps select flat minima: A stability analysis.》,有兴趣的同学可以继续深入研究。
好了,本题就先说到这里,下篇接着说。
我们是谁:
MatheMagician,中文“数学魔术师”,原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义,也取像魔术一样玩数学的意思。文章内容涵盖互联网,计算机,统计,算法,NLP等前沿的数学及应用领域;也包括魔术思想,流程鉴赏等魔术内容;以及结合二者的数学魔术分享,还有一些思辨性的谈天说地的随笔。希望你能和我一起,既能感性思考又保持理性思维,享受人生乐趣。欢迎扫码关注和在文末或公众号留言与我交流!
扫描二维码
关注更多精彩
完美洗牌的秘密(二十一)——milk shuffle的应用三(天天四条龙等)
2024阿里巴巴全球数学竞赛决赛中的数列题解析(分析与方程方向第4题)
点击阅读原文,往期精彩不错过!