
AIGC
文章平均质量分 60
大写的ZDQ
这个作者很懒,什么都没留下…
展开
-
缓存与效果的取舍之——MHA到GQA(详细代码实现)
原始transformer中的attention也是MHA,每一个head的head_size将变为原始embed_size的1/num_head,类似group卷积,类似于建立了很多个交流通道,每个交流通道关注的信息细节不一样,也就是每一个头可以关注到序列中不同子空间的特征。将query分成g组,每组的query共享KV,平衡效果和缓存。原创 2025-02-22 22:25:57 · 349 阅读 · 0 评论 -
tokenizer和embedding之间的关系?
低频词问题:若Tokenizer将罕见词拆分为无意义的子词(如"量子力学"→"量", “子”, “力”, “学”),Embedding可能无法有效组合子词语义。子词分词(如BERT):能处理未登录词(OOV),但可能拆分语义单元(如"unhappiness"→"un”, “##happy”, “##ness”)。跨语言对齐:在多语言模型中,Tokenizer需统一不同语言的分词方式,否则Embedding难以跨语言共享(如mBERT中的平衡分词策略)。符号化的词或子词序列。原创 2025-02-16 00:41:39 · 1022 阅读 · 0 评论 -
大语言模型中one-hot编码和embedding之间的区别?
例如,词汇表有10,000个词,每个词对应一个10,000维的向量,其中仅有一个位置为1(表示当前词),其余为0。参数可控:嵌入矩阵尺寸为V × D(D为嵌入维度,通常D=300),参数量远小于One-Hot方案。上下文感知:在Transformer等模型中,Embedding可结合位置编码,动态适应不同上下文(如“苹果”在“水果”和“公司”中的不同含义)。参数爆炸:若词汇表大小为V,模型输入层到第一隐藏层的权重矩阵尺寸为V × H(H为隐藏层大小),当V=10^5时,参数数量极大。原创 2025-02-16 00:33:13 · 747 阅读 · 0 评论 -
详解大模型架构——MLA
DeepSeekV2提出了一种优化MQA的方法:MLA(Multi-head Latent Attention)在推理的过程中,所有的key,value都需要被cache以加速推理,因此MHA需要为每个token缓存。在模型部署时,这种大量的KVcache是一个瓶颈,它限制了最大batch size和序列长度。一般MHA会把QKV分成。原创 2025-02-10 00:16:24 · 274 阅读 · 0 评论 -
详解大模型结构MOE(混合专家网络)
MOE全称:Mixture of expert, 是大模型的结构之一。原创 2025-02-09 22:48:15 · 770 阅读 · 0 评论 -
Transformer模型构造概念——Embedding
【代码】Transformer模型构造概念——Embedding。原创 2025-02-04 00:35:12 · 260 阅读 · 0 评论