肖家河银枪小霸王-优快云博客

原创对NLP模型的感性认知（二）-----bert哪部分参数占比更大？

84934656,sd=23440896，相加为108,375,552，也就是108M，我们可以看到，FFN，self-attention，以及输入部分的参数量没有数量级上的差距。FFN部分，bert的处理方式和transformer一样，隐藏维度为4d：那么参数量为d*4d+4d+4d*d+d=8。需要注意的是，在接下来layer normalization部分有可训练的参数，但是这里考虑到数量级很小，我们略去。encoder block我们沿用上一期的计算结果 (3d+d)*d/h*h =4。

2023-05-07 18:35:10 152

原创对NLP模型的感性认知（一）：transformer为基础的结构中究竟哪部分参数多——参数量计算

先贴上一张transformer的图。注意这张图是模型图，而并非按照模型参数量大小去理解的图。那么，也就说，其中相当一部分参数来自于Feed Forward。这部分在原始论文中隐藏层维度为4d，那么参数量为d*4d+4d*d=8。+nd+md)，假如我们进一步忽略一次项目，可以粗略估算参数量为。在自注意力部分的参数量为：(3d+d)*d/h*h =4。在输入层的embedding部分参数量为:nd+md。，在自注意力模块后还有MLP模块，也就是图中的。为了简化计算，我们忽略了偏置矩阵。

2023-05-05 16:56:36 426 1

原创基于peft以及清华GLM 6b模型的微调方式理解

主要有lora，清华的p-tuning V1，V2，prefix-tuning,prompt-tuning，以及freeze这几个方法。但是需要注意，清华的ptuningv2与peft库不兼容，也就是说如果要通过ptuning微调GLM模型，需要用到清华大学开源出的ptuningv2代码。清华的p tuning v2相当于peft中的prefix tuning。在peft库中p tuning是清华的p tuning V1，而prompt tuning是一篇更早的论文，

2023-05-04 16:59:19 621 1

原创 prompt和instruct的区别究竟是什么

民事责任的适用条件包括：1.有过错：造成损害的行为必须是具有过错的行为，不能是无过错的行为。总之，当出现道路交通事故中的民事责任问题时，需要根据具体情况来判断，如果当事人的行为具有过错，并且由此给他人造成了损失，那么该当事人就应当承担民事责任，进行赔偿等相应处理。在目前实际的运用当中，我们通常会说，给大语言模型写一个prompt，但是我们很少会给语言模型写instruct，与此同时，只有instructGPT而没有promptGPT。需要注意的是，在实际运用当中，prompt和instruct时常混用！

2023-05-04 16:41:22 4757 1

原创 leetcode 打家劫舍的循环坑

但是这行代码思想是没有问题的，那么问题出在哪里呢。注意我们的dp数组，这个数组应该最起码是非减的，所以我们的初始化步骤看起来没有问题，实则应该改为。在做lc打家劫舍的时候把代码写成了。

2023-05-04 14:32:18 109 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 对NLP模型的感性认知（二）-----bert哪部分参数占比更大？

原创 对NLP模型的感性认知（一）：transformer为基础的结构中究竟哪部分参数多——参数量计算

原创 基于peft以及清华GLM 6b模型的微调方式理解

原创 prompt和instruct的区别究竟是什么

原创 leetcode 打家劫舍的循环坑

空空如也

空空如也

原创对NLP模型的感性认知（二）-----bert哪部分参数占比更大？

原创对NLP模型的感性认知（一）：transformer为基础的结构中究竟哪部分参数多——参数量计算

原创基于peft以及清华GLM 6b模型的微调方式理解