- 博客(3)
- 收藏
- 关注
转载 探秘Transformer系列之(26)--- KV Cache优化---分离or合并
在大模型的推理过程中,通常可以将任务分为两个阶段:Prefill 阶段处理所有输入的 Token,生成第一个输出 Token,并生成 KVCache。Decode 利用 KVCache 进行多轮迭代,每轮生成一个 Token。由于 Prefill 阶段并行处理许多 Token,因此是计算密集型的,其延迟通过首 Token 时延(TTFT)来衡量。相比之下,Decode 阶段由于频繁加载不断增长的 KV Cache 而成为内存密集型,其时延通过 TPOT 来衡量。
2025-05-23 15:49:39
59
转载 Graphics2D绘图方法总结
一、简介在开发中可能会遇到这样一类场景,业务复杂度不算太高,技术难度不算太深,但是做起来就很容易把人整破防,伤害很高侮辱性很强的:绘图。绘图最怕有人挑刺:这里变形,那里不对,全图失真。最近在处理这样一个场景,使用Java的Graphics2D类,绘制业务需要的图形模板,然后在具体流程中填充数据,并且将图形存储起来,逻辑并不复杂,由于涉及ToC和ToB两端交互,必须用点雕花的态度。二、字体...
2024-09-12 08:24:51
328
转载 python selenium下拉列表
python相关学习资料:https://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlhttps://edu.51cto.com/video/3502.htmlPython Selenium实现下拉列表操作教程作为一名刚入行的开...
2024-07-22 03:37:44
134
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅