2024阿里巴巴全球数学竞赛决赛中的深度学习背景题解析(一)——应用与计算数学部分第2题...

早点关注我,精彩不错过!

数学魔术是孩子最好的逻辑思维启蒙导师,MatheMagcian数学魔术课程火热报名中!

欢迎点击《数学魔术师种子班开班啦!——暨2025数学魔术冬令营通知》并咨询微信1035312177(备注:数学魔术课程咨询)报名!名额有限,先到先得!


时间过去大半年,姜萍事件就如同冷暴力一般,云淡风轻地飘过,不留下一丝痕迹。既然无力改变,那就随他去吧。但当时我一直念念不忘的,还有当时决赛中出现的2道深度学习背景的证明题,可谓是和我日常的算法炼丹工作背景出奇地契合,而这种理论层面的一点窥探,也能满足一点对平静的工作内容神圣的想象。

当然以我现在的水平,花大把时间精力独立解出此题已是奢侈和困难,在参考了众多资料后,得一解答,并聊一点想法,足矣。

在2024阿里巴巴全球数学竞赛决赛中的应用于计算数学部分,一共有2和6两道深度学习背景的题目。其中2是关于网络的局部优化动力学,探讨最基本的随机梯度下降的训练方法的执行结果,是否存在一些性质结果,以便尝试从边界上指导一下训练的方向;6则是近年炙手可热的Scaling Law相关的证明,虽然只是一个特例,但又对这个有点经验式的丑陋的定律又有了一点认识的安全感。

本篇先讲第2题。

原题:

d68b8b4596578e2893fd3de82acec75a.png

先看参考解答:

‍‍2e056b181043a8f8b7a4eb02b3a9c3cf.jpeg

2fff78ad2e8855e4a282450cdff77b39.jpeg

由于距离大学学线性代数、矩阵计算这些内容已实在久远,在进行这些矩阵计算的推导中,费了我不少功夫。不过好在方向性把控得还好,所以借助一些资料查阅也把证明过程给理了出来。

如果仅从数学考试题的角度评价,这题只能算是矩阵论课程的中规中矩的考试题,如果熟练掌握这些如谱范数、F范数,还有正定的对称矩阵的特征向量组的结构特点等内容,得到结论应该不难。其核心的计算技巧就是利用矩阵的对角化,把向量表示在新的特征向量构成的基上,于是整个过程就很顺畅能推导下去。放缩部分的话,也是很基础的关于最大特征值的放缩,和平方恒正的放缩,都是最基础的内容。

但是此题真正的价值,应该在于其神经网络背景下的实际性质的意义。这里和一般网络不同,首先进行了一阶Taylor展开,使得变成一个线性网络,这一步已经和实际网络有比较大的区别了。而第1问的结论说明,在神经网络的优化过程中,如果是梯度下降法,不用担心某次的损失函数爆炸,它是有关于Sigma的F范数和W0的界的,不会超出。第2问则考察了更常用的sgd方法下,当损失的期望有界时,对于Sigma矩阵的F范数的界的计算。

这里的Sigma矩阵,实际上是loss梯度的系数矩阵,这里的变量取dirta_w来计,也叫Fisher矩阵,用其F范数,可以衡量在一个极值点处的图像是否平缓。比如我们也常用Hessain矩阵的最大特征值,迹等来衡量。而第2问的结论说明,这个衡量值的上界,和维度无关,也就是我们可以放心地扩大规模,而不必担心其F范数随着发散,因为已经求得它的上界之和s步长,b批次大小和对齐系数dirta有关。

这个证明也自然说明,sgd方法(实际上是bgd)能够获得平坦的极值点,这也被认为是泛化性的由来,即参数值的扰动对结果影响不大,灵敏度低,说明在不错的解的范围内,而不是一个特殊的异常解而已。

至于题设中提到的对齐性质,虽然作为条件给出,但也是可以证明的,相关论文为《The alignment property of SGD noise and how it helps select flat minima: A stability analysis.》,有兴趣的同学可以继续深入研究。

好了,本题就先说到这里,下篇接着说。

a39d3ded5ca674bfac81e09880b59789.gif

我们是谁:

MatheMagician,中文“数学魔术师”,原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义,也取像魔术一样玩数学的意思。文章内容涵盖互联网,计算机,统计,算法,NLP等前沿的数学及应用领域;也包括魔术思想,流程鉴赏等魔术内容;以及结合二者的数学魔术分享,还有一些思辨性的谈天说地的随笔。希望你能和我一起,既能感性思考又保持理性思维,享受人生乐趣。欢迎扫码关注和在文末或公众号留言与我交流!

f24986602f77bec8f2be0a867619f08e.gif

4b56728ae68737bcc83e136af67b393c.png

6fb608911df05f0252bd33a1d42aad3c.jpeg

扫描二维码

关注更多精彩

完美洗牌的秘密(二十一)——milk shuffle的应用三(天天四条龙等)

易拉罐的奇迹(二)——《易拉罐平衡》与《气体转移》

2024阿里巴巴全球数学竞赛决赛中的数列题解析(分析与方程方向第4题)

CATO原理中的数学与魔术(十四)——流程设计思路与升华

魔术里的交代与暗交代(三)——暗交代是怎么做的?

2fd07f40d7256b41264ef4ae2ce010c7.gif

点击阅读原文,往期精彩不错过!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值