本文精心汇总了多家顶尖互联网公司在大模型大模型(LLMs)推理面考核中的核心考点,并针对这些考点提供了详尽的解答。并提供电子版本,见于文末百度云盘链接中,供读者查阅。
大模型(LLMs)推理面
• 一、为什么大模型推理时显存涨的那么多还一直占着?
• 二、大模型在gpu和cpu上推理速度如何?
• 三、推理速度上,int8和fp16比起来怎么样?
• 四、大模型有推理能力吗?
• 五、大模型生成时的参数怎么设置?
• 六、有哪些省内存的大语言模型训练/微调/推理方法?
• 6.1 如何 估算模型所需的RAM?
• 6.2 Fp16-mixed precision
• 6.3 Int8-bitsandbytes
• 6.4 LoRA
• 6.5 Gradient Checkpointing
• 6.6 Torch FSDP+CPU offload
• 七、如何让大模型输出合规化
• 八、应用模式变更
• 九、模型输出的分布比较稀疏,怎么处理?
• 十、在使用LLM(Lamma2模型)对同一组prompt重复进行5次 greedy 预测时,为什么针对相同的prompt,