1、现在的大语言模型为什么基本都用decoder-only结构?
2、训练一个大语言模型的整条路线是什么?
3、介绍下LoRA. Adapter, prefix-tuningP-tuning和lPrompt-tun
ing?
4、你觉得OPENAI对齐为什么要用强化学习方法RLHF,用别的方法
不可以吗?
5、介绍inference的几种方式?
6、介绍下tokenizer?怎么训练的?
7、SFT后LLM 会出现哪些问题?
8、目前的大语言模型是怎么解决或者改善长度外推问题的?
9、目前大语言模型应用到端侧应用有哪些挑战?
10、GPT,llama,T5,GLM在模型上的架构是什么?分别有什么优势?
11、介绍下lora和q-lora?
12、LLaMA模型为什么要用旋转位置编码?
13、LLaMA模型使用了哪种激活了图数,为什么?
14、LLaMA模型在训练过程中如何处理梯度消失和梯度爆炸问题?
15、预训练和微调任务有什么区别?两者的目的是什么?
16、你训练的时候用float16,还是bfloat16,float32?为什么?
17、怎么解决训练使用float16导致溢出的问题?
如何训练自己的大模型?
解答:
-
选择合适的预训练目标和任务:确定模型将学习哪些通用的语言知识,以及针对哪些特定任务
进行优化。 -
收集和准备数据:收集大量、多样化的数据,包括通用数据和特定领域的数据进行消洗和预处
理。 -
选择模型架构:选择一个适合的模型架构,如Transformer,并确定模型的规模和层数。
-
定义训练流程:设置训练参数, 如学