- 博客(5)
- 收藏
- 关注
原创 对NLP模型的感性认知(二)-----bert哪部分参数占比更大?
84934656,sd=23440896,相加为108,375,552,也就是108M,我们可以看到,FFN,self-attention,以及输入部分的参数量没有数量级上的差距。FFN部分,bert的处理方式和transformer一样,隐藏维度为4d:那么参数量为d*4d+4d+4d*d+d=8。需要注意的是,在接下来layer normalization部分有可训练的参数,但是这里考虑到数量级很小,我们略去。encoder block我们沿用上一期的计算结果 (3d+d)*d/h*h =4。
2023-05-07 18:35:10
152
原创 对NLP模型的感性认知(一):transformer为基础的结构中究竟哪部分参数多——参数量计算
先贴上一张transformer的图。注意这张图是模型图,而并非按照模型参数量大小去理解的图。那么,也就说,其中相当一部分参数来自于Feed Forward。这部分在原始论文中隐藏层维度为4d,那么参数量为d*4d+4d*d=8。+nd+md),假如我们进一步忽略一次项目,可以粗略估算参数量为。在自注意力部分的参数量为:(3d+d)*d/h*h =4。在输入层的embedding部分参数量为:nd+md。,在自注意力模块后还有MLP模块,也就是图中的。为了简化计算,我们忽略了偏置矩阵。
2023-05-05 16:56:36
426
1
原创 基于peft以及清华GLM 6b模型的微调方式理解
主要有lora,清华的p-tuning V1,V2,prefix-tuning,prompt-tuning,以及freeze这几个方法。但是需要注意,清华的ptuningv2与peft库不兼容,也就是说如果要通过ptuning微调GLM模型,需要用到清华大学开源出的ptuningv2代码。清华的p tuning v2相当于peft中的prefix tuning。在peft库中p tuning是清华的p tuning V1,而prompt tuning是一篇更早的论文,
2023-05-04 16:59:19
621
1
原创 prompt和instruct的区别究竟是什么
民事责任的适用条件包括:1.有过错:造成损害的行为必须是具有过错的行为,不能是无过错的行为。总之,当出现道路交通事故中的民事责任问题时,需要根据具体情况来判断,如果当事人的行为具有过错,并且由此给他人造成了损失,那么该当事人就应当承担民事责任,进行赔偿等相应处理。在目前实际的运用当中,我们通常会说,给大语言模型写一个prompt,但是我们很少会给语言模型写instruct,与此同时,只有instructGPT而没有promptGPT。需要注意的是,在实际运用当中,prompt和instruct时常混用!
2023-05-04 16:41:22
4757
1
原创 leetcode 打家劫舍的循环坑
但是这行代码思想是没有问题的,那么问题出在哪里呢。注意我们的dp数组,这个数组应该最起码是非减的, 所以我们的初始化步骤看起来没有问题,实则应该改为。在做lc打家劫舍的时候把代码写成了。
2023-05-04 14:32:18
109
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人