问题一:Transfomer矩阵维度分析及MultiHead详解:
问题二:transformer的结构,流程,维度变换,encoder,decoder:
多头维度怎么变化:先在q,k,v的输入端就进行处理,让他们的维度为 embedding_size /nums_head。最后在注意力层的最后拼接。这就是原因:head的数量需被embedding_size整除
注意力:通过Q和K计算得到注意力权重,然后在作用于V得到整个权重和输出
细致链接
问题三:p-tuning,lora,adapter 的细致算法:
p-tuning
lora
adapter