
暑期课程Tinghua
文章平均质量分 60
YJII
这个作者很懒,什么都没留下…
展开
-
大模型的魔法
Delata learing中比较经典的学习方法,其中,黄色部分应该是要学习和更新的参数,蓝色部分应该是frozen params 彩色线条表示现有研究已经尝试过的做法,灰色表示还没有研究做过。原创 2022-07-04 21:45:06 · 275 阅读 · 0 评论 -
大模型的魔法
weight decay(权值衰减)的最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。momentum是梯度下降法中一种常用的加速技术。对于一般的SGD,其表达式为 ,x沿负梯度方向下降。而带momentum项的SGD则写生如下形式:其中\beta 即momentum系数,通俗的原创 2022-07-04 20:03:02 · 392 阅读 · 0 评论