指标解读 running 推理中的swapped 因为优先级问题中止推理的pending 无资源,等待中的 Prefix cache usage: 加速推理的,为了尽可能命中前缀缓存,应该尽量将公共的输入部分前置 GPU KV-cache usage: 接近100%的话就会导致推理失败,注意 KV-cache usage不能过高