VLLM功能矩阵
chunked prefill
qps上来以后,延迟能有明显的优化。
原理就是新到request的prefill,不阻塞正在decode的request。
FP8量化的支持
动态量化,即激活是在推理阶段进行量化,不需要提前calibration:
FlashInfer
NCCL和custom allreduce(应该就是指one-shot和two-shot以及half-bufferfly那些,小数据量通信情况下,降低延迟用的)
Speculative Decoding
和continous batching一起使用时,为什么加速比和qps有关?