原文地址
链接:https://zhuanlan.zhihu.com/p/635152813
思考题
问题1:Self Attention对于计算的并行性体现在哪里?(解决)
答案:
1.矩阵运算的并行性;
2.多头注意力的并行性;
3.无序列依赖性;
(写一个序列进行分词,转化为token,embedding,然后计算QK^T就能看出来了);
问题2:表示子空间是什么意思?(解决)
答案:
不同的注意力头可以学习到序列的不同的特征,将不同的特征综合起来就是多头注意力学习到的特征;
问题3:Transformer结构怎么进行更好地并行训练?(解决)
答案:
3.1:Self-Attention计算注意力的时候是并行计算的;
3.2:层并行化,Transformer的不同层放到不同的GPU上进行并行处理;
3.3:数据并行化:将数据切分为一定大小的batch;
等等
问题4:什么是灾难性遗忘?(解决)
答案:
灾难性遗忘就是在学习了新的知识之后,会把旧的知识遗忘,主要原因是权重更新的冲突,也是全量微调的一个弊端;
问题5:高效微调技术可以粗略分为以下三大类:增加额外参数(A)、选取一部分参数更新(S)、引入重参数化(R)。在这段话中,什么是重参数化?(解决)
答案:简单来说就是低秩分解类似的;
问题6:全量微调和重新预训练有什么区别?(解决)
答案:
6.1:全量微调是用预训练的大模型对新的任务进行全部参数的微调;
6.2:重新预训练是重新准备大型数据集对预训练的大模型进行再次预训练;
问题7:文章1主要讲了什么内容?结构是什么样的?有什么认知性的启发性收获? (这一章不用出动手题)(解决)
答案:讲解一下为什么要做高效的参数微调,高效的参数微调和全参微调的对比,以及高效的参数微调的方法有哪些(问题5);