1 不同参数量LLM推理需要多少显存? 2 Batch Size,量化对所需显存有什么影响? 要点: BatchSize增加,显存占用也会增加。 量化可以节省显存:通过下表中的数据可以看到,6B模型在float16时占用12G显存,8bit量化占用7G,4bit量化只需要4G显存。 3 上下文长度对所需显存和推理速度的影响有多大? 上下文越长,推理速度就会越慢 (0-6K前的输入速度差不多) 显存占用也会跟着增加。 4 量化对推理速度的影响如何? 量化后推理速度会变慢或者持平 当量化影响到GPU使用量时,比如从