2024阿里巴巴全球数学竞赛决赛中的深度学习背景题解析(二)——应用与计算数学部分第6题...

早点关注我,精彩不错过!

数学魔术是孩子最好的逻辑思维启蒙导师,MatheMagcian数学魔术课程火热报名中!

欢迎点击《提成绩,上春晚,开课——数学魔术师种子班(小学)报名通知!(内含惊喜福利)》、《数学魔术师种子班开班啦!——暨2025数学魔术冬令营通知》并咨询微信1035312177(备注:数学魔术课程咨询)报名!名额有限,先到先得!


上一篇我们完成了第2题的讲解,算是过了一把研究神经网络机理的瘾,传送门:

2024阿里巴巴全球数学竞赛决赛中的深度学习背景题解析(一)——应用与计算数学部分第2题

今天我们继续来赶个时髦,研究一下大模型背景下,炙手可热的Scaling Law问题。在还没有足够本质的理论描述之前,这种定律应该是做深度学习为数不多的可指导性方针了,十分珍贵。今天不妨从证明的角度,借助题目,再深入理解一番。

先看题:

8bd35f7b7d5a94ab076b282ec76e9cec.png

430f87ef5006464167d4eef6db59d11c.png

老规矩,先给参考解答,再点评。

f89e18df201ca08422f15846bd234429.png

ebdb5691fb95e763576edebc5d1a3b35.png

说实话,本题对数学功底的要求要远超问题2,其大篇幅的分布上数字特征的计算倒是花点时间可以慢慢小心算,但是最后关于极限收敛部分的解答我自己没有太大的把握,有问题还请各位高手指正。其中第1问刨去所谓的深度学习背景,就是一个纯分布计算的问题,好好小心地用好各个正态分布变量的期望方差和条件假设,以及独立性,小心算就没问题。第2问的话我只能定性地根据e的定义得到近似的收敛公式,并尝试得到了g(T),但里面还带有了参数A,而这里A是不能取0的,否则前面的e的定义近似推导不能成立。第3问的话,沿用2的推导即可,因为全程并没有用到规模参数N,而推导结果也刚好是维度扩展的结果,形式完全一样。故结论的要求满足只需要对近似的c值配上beta = 1,再根据N和T值的速度关系假设,可得alpha值。我只是得出了一组可能正确的解,至于别的解、最值等问题,没有再深究。

不过此题最亮点的地方还在其实际的深度学习训练背景吧。其中第1问通过推导,直接给出了sgd训练方法下训练损失在T步的期望。即,因为整个训练过程可以看作在初始特定分布上的一连串计算过程,因此最后的目标损失理论上也是个随机变量,我们如果能研究清楚其性质,那对于最终能训练成什么水平,需要多少步迭代就心中有数了。这里期望的计算算是抛砖引玉,其方差、分布形状等更多的性质可能还有很多秘密。第2问也是同样的背景,应用1的结论,得出了若打算训练T步,对应的学习率应该如何给定。注意这里T和yita都是常量,其实是不太符合一般神经网络学习防止过拟合的早停策略来决定训练步数,以及预先给定好yita的迭代策略的方案的。

至于问题3,就是当今火热的Scaling Law的一个相关问题了。其正式表述如下:

a5ef684ccd9c607bdc33936398fef191.png

(取自《大预言模型》)

可以看到,这里的定义和本题第3问还是有区别,其两个参数是N和D,为网络和数据规模,而题目中是N和T。虽然在数据无限情况下,T和D是成正比的,但显然实际情况下,数据一般会训练超过一个epoch,否则数据就没有被充分使用,瓶颈在N上。而如果数据从未重复使用过,此题中才能真正严格保证每个(x,y)数据都是iid分布而没有任何哪怕是伪的周期性规律,是真实分布采样来的结果。

而这个证明的结论也从一个侧面证明了,一层的简单线性神经网络,满足这些分布假设,是可以得到类似Scaling Law的定理性证明的,至少没有提出一票否决来证伪,说明这个定律在其他更复杂的情况下还有可能是对的,未来还有可能被证明一定正确。

真不知道这个结论应该高兴还是难过,就像假设检验只有残忍拒绝原假设才能得出有利结论一样,如果不能拒绝,相当于什么结论也没有。同样,神经网络结构下底层的数学性质的解构,在简化和加强了条件下不断地被证明成立,这个大厦就不能被推翻,并会一直逼近真相但也很漫长;但如果只能能证明其不存在scaling law,或其收敛能力的上限等,那倒是可以像信息论给通信效率划定了一条边界一样,给神经网络的效果也划定一条边界,我们才能放心地不再漫无目的地炼丹,逃出一个坑再准备进入下一个苦海。

静候佳音。

图片

我们是谁:

MatheMagician,中文“数学魔术师”,原指用数学设计魔术的魔术师和数学家。既取其用数学来变魔术的本义,也取像魔术一样玩数学的意思。文章内容涵盖互联网,计算机,统计,算法,NLP等前沿的数学及应用领域;也包括魔术思想,流程鉴赏等魔术内容;以及结合二者的数学魔术分享,还有一些思辨性的谈天说地的随笔。希望你能和我一起,既能感性思考又保持理性思维,享受人生乐趣。欢迎扫码关注和在文末或公众号留言与我交流!

图片

图片

图片

扫描二维码

关注更多精彩

2024阿里巴巴全球数学竞赛决赛中的深度学习背景题解析(一)——应用与计算数学部分第2题

完美洗牌的秘密(二十一)——milk shuffle的应用三(天天四条龙等)

易拉罐的奇迹(二)——《易拉罐平衡》与《气体转移》

2024阿里巴巴全球数学竞赛决赛中的数列题解析(分析与方程方向第4题)

CATO原理中的数学与魔术(十四)——流程设计思路与升华

图片

点击阅读原文,往期精彩不错过!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值