2024阿里巴巴全球数学竞赛决赛中的深度学习背景题解析（一）—

早点关注我，精彩不错过！

数学魔术是孩子最好的逻辑思维启蒙导师，MatheMagcian数学魔术课程火热报名中！

欢迎点击《数学魔术师种子班开班啦！——暨2025数学魔术冬令营通知》并咨询微信1035312177（备注：数学魔术课程咨询）报名！名额有限，先到先得！

时间过去大半年，姜萍事件就如同冷暴力一般，云淡风轻地飘过，不留下一丝痕迹。既然无力改变，那就随他去吧。但当时我一直念念不忘的，还有当时决赛中出现的2道深度学习背景的证明题，可谓是和我日常的算法炼丹工作背景出奇地契合，而这种理论层面的一点窥探，也能满足一点对平静的工作内容神圣的想象。

当然以我现在的水平，花大把时间精力独立解出此题已是奢侈和困难，在参考了众多资料后，得一解答，并聊一点想法，足矣。

在2024阿里巴巴全球数学竞赛决赛中的应用于计算数学部分，一共有2和6两道深度学习背景的题目。其中2是关于网络的局部优化动力学，探讨最基本的随机梯度下降的训练方法的执行结果，是否存在一些性质结果，以便尝试从边界上指导一下训练的方向；6则是近年炙手可热的Scaling Law相关的证明，虽然只是一个特例，但又对这个有点经验式的丑陋的定律又有了一点认识的安全感。

本篇先讲第2题。

原题：

‍

先看参考解答：

‍‍

由于距离大学学线性代数、矩阵计算这些内容已实在久远，在进行这些矩阵计算的推导中，费了我不少功夫。不过好在方向性把控得还好，所以借助一些资料查阅也把证明过程给理了出来。

如果仅从数学考试题的角度评价，这题只能算是矩阵论课程的中规中矩的考试题，如果熟练掌握这些如谱范数、F范数，还有正定的对称矩阵的特征向量组的结构特点等内容，得到结论应该不难。其核心的计算技巧就是利用矩阵的对角化，把向量表示在新的特征向量构成的基上，于是整个过程就很顺畅能推导下去。放缩部分的话，也是很基础的关于最大特征值的放缩，和平方恒正的放缩，都是最基础的内容。

但是此题真正的价值，应该在于其神经网络背景下的实际性质的意义。这里和一般网络不同，首先进行了一阶Taylor展开，使得变成一个线性网络，这一步已经和实际网络有比较大的区别了。而第1问的结论说明，在神经网络的优化过程中，如果是梯度下降法，不用担心某次的损失函数爆炸，它是有关于Sigma的F范数和W0的界的，不会超出。第2问则考察了更常用的sgd方法下，当损失的期望有界时，对于Sigma矩阵的F范数的界的计算。

这里的Sigma矩阵，实际上是loss梯度的系数矩阵，这里的变量取dirta_w来计，也叫Fisher矩阵，用其F范数，可以衡量在一个极值点处的图像是否平缓。比如我们也常用Hessain矩阵的最大特征值，迹等来衡量。而第2问的结论说明，这个衡量值的上界，和维度无关，也就是我们可以放心地扩大规模，而不必担心其F范数随着发散，因为已经求得它的上界之和s步长，b批次大小和对齐系数dirta有关。

这个证明也自然说明，sgd方法（实际上是bgd）能够获得平坦的极值点，这也被认为是泛化性的由来，即参数值的扰动对结果影响不大，灵敏度低，说明在不错的解的范围内，而不是一个特殊的异常解而已。

至于题设中提到的对齐性质，虽然作为条件给出，但也是可以证明的，相关论文为《The alignment property of SGD noise and how it helps select flat minima: A stability analysis.》，有兴趣的同学可以继续深入研究。

好了，本题就先说到这里，下篇接着说。

我们是谁：

MatheMagician，中文“数学魔术师”，原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义，也取像魔术一样玩数学的意思。文章内容涵盖互联网，计算机，统计，算法，NLP等前沿的数学及应用领域；也包括魔术思想，流程鉴赏等魔术内容；以及结合二者的数学魔术分享，还有一些思辨性的谈天说地的随笔。希望你能和我一起，既能感性思考又保持理性思维，享受人生乐趣。欢迎扫码关注和在文末或公众号留言与我交流！