Prefix Caching。预先算好KV cache,遇见公共前缀,复用之,避免再计算一遍。
场景:1. 多轮对话。2.公共的system prompt。
Guided Decoding(格式化输出)
通过Outlines工具实现。
支持正则表达式、JSON格式等。
输入:

输出:

MoE优化:
●
Triton grouped GEMM kernel with tuned tile sizes
Marlin
增加Marlin Kernel,INT4 quantization时可加速。
Speculative Decoding

chunked-prefill的好处:

最低0.47元/天 解锁文章
468

被折叠的 条评论
为什么被折叠?



