Cascade Inference: Memory Bandwidth Efficient Shared Prefix Batch Decoding | FlashInfer
batch里requests之间有共享前缀时,可以将共享前缀的Q*K*V只计算1次。
requests之间的prompts呈现是一棵前缀树时,除了叶子,枝干部分都是被多个requests所共享的,可以每个枝干只计算1次。
每个SM上的thread block,可以计算1份共享前缀,或1份叶子(非共享的后缀)。多组并行在多个SM上。
同一个prompt在这个树上的各个段,在最后要进行归一化加和。原理类似FlashAttention。