简单介绍一下 BERT 和 Transformer
Attention 和 self-attention 有什么区别?
Transformer 的复杂度
Bert 用的什么位置编码,为什么要用正弦余弦来做位置编码?还知道其他哪些位置编码?
除了 bert 还做过哪些模型的微调?
为什么现在的大模型大多是 decoder-only 的架构?
讲一下生成式语言模型的工作机理
用过 LoRA 吗?讲一下原理?
Transformer 结构和 LSTM 的区别和优势,Transformer 怎么体现时序信息?
Transformer Encoder 和 Decoder 的输入输出和结构
BatchNorm 更多用在视觉上,LayerNorm 更多用在语言上,为什么
有没 chatGLM,LLaMA 等部署、微调经历?
有没有了解过大模型加速推理?
讲一下 Flash Attention?
1万+

被折叠的 条评论
为什么被折叠?



