孤鸿寄羽-优快云博客

转载探秘Transformer系列之（26）--- KV Cache优化---分离or合并

在大模型的推理过程中，通常可以将任务分为两个阶段：Prefill 阶段处理所有输入的 Token，生成第一个输出 Token，并生成 KVCache。Decode 利用 KVCache 进行多轮迭代，每轮生成一个 Token。由于 Prefill 阶段并行处理许多 Token，因此是计算密集型的，其延迟通过首 Token 时延（TTFT）来衡量。相比之下，Decode 阶段由于频繁加载不断增长的 KV Cache 而成为内存密集型，其时延通过 TPOT 来衡量。

2025-05-23 15:49:39 59

转载 Graphics2D绘图方法总结

一、简介在开发中可能会遇到这样一类场景，业务复杂度不算太高，技术难度不算太深，但是做起来就很容易把人整破防，伤害很高侮辱性很强的：绘图。绘图最怕有人挑刺：这里变形，那里不对，全图失真。最近在处理这样一个场景，使用Java的Graphics2D类，绘制业务需要的图形模板，然后在具体流程中填充数据，并且将图形存储起来，逻辑并不复杂，由于涉及ToC和ToB两端交互，必须用点雕花的态度。二、字体...

2024-09-12 08:24:51 328

转载 python selenium下拉列表

python相关学习资料：https://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlhttps://edu.51cto.com/video/3502.htmlPython Selenium实现下拉列表操作教程作为一名刚入行的开...

2024-07-22 03:37:44 134

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 探秘Transformer系列之（26）--- KV Cache优化---分离or合并

转载 Graphics2D绘图方法总结

转载 python selenium下拉列表

空空如也

空空如也

转载探秘Transformer系列之（26）--- KV Cache优化---分离or合并