Prefix Caching。预先算好KV cache,遇见公共前缀,复用之,避免再计算一遍。
场景:1. 多轮对话。2.公共的system prompt。
Guided Decoding(格式化输出)
通过Outlines工具实现。
支持正则表达式、JSON格式等。
输入:
输出:
MoE优化:
●
Triton grouped GEMM kernel with tuned tile sizes
Marlin
增加Marlin Kernel,INT4 quantization时可加速。
Speculative Decoding