大模型:
-
位置编码有哪些?
-
介绍LoRA与QLoRA
-
RAG和微调的区别是什么?
-
哪些因素会导致LLM的偏见?
-
什么是思维链(CoT)提示?
-
Tokenizer的实现方法及原理
-
解释一下大模型的涌现能力?
-
解释langchainAgent的概念
-
langchain有哪些替代方案?
-
RLHF完整训练过程是什么?为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?
-
RAG和微调的区别是什么?
-
有了解过什么是稀疏微调吗?
-
简述一下FlashAttention的原理
-
画图说明 Transformer 基本流程
-
LLM预训练阶段有哪几个关键步骤?
-
RLHF模型为什么会表现比SFT更好?
-
LLaMA 模型为什么要用旋转位置编码?
-
DeepSpeed推理对算子融合做了哪些优化?
-
MHA,GQA,MQA三种注意力机制的区别是什么?
-
为什么现在的大模型大多是 decoder-only 的架构?
-
训练后量化(PTQ)和量化感知训练(QAT)与什么区别?