背景&现状
LLM Agent时代降临, AI模型的底座驱动工业生产活动。Agent的工程是一个综合性的工程, 涉及到很多层面计算机知识。从系统设计的角度来说,沿用传统的Agent设计模式,AI模型Agent的设计逐步完成属于LLM特色迁移和转变。诸多环节(软件协议,通信规范,底座系统)的设计都发生了客观的变化。本文初步讨论快照设计模式: I. 什么是LLM快照 II. 在LLM底座Agent工程中作为LLM内核的意义和III. 落地。
大模型的“结构模式”
大模型, 使用自回归的方式更新。每一次推理得到logits后,某种概率上“最大”求得的,根据具体策略而定。然后循环多次,直到大模型自己告知eos结束符时才结束一个序列文字的生成。每一次循环, LLM根据前文内容生成的文本,继续计算下文每一个词。
上图的自回归逐步进行,假如由于某种原因自回归的流程必须中断,长时间离线,甚至系统崩溃。所有的生成是否需要重新开始吗,答案是否定的。快照的设计由此诞生。
I. 大模型快照设计模式
首先是如何得到数据视图上的快照。比如上图中LLM中断生成,需要一部分中间变量存储,将来的某时恢复生成任务。人们首先容易想到的是存储上次生成的前文文本序列。另外,其他变量存储根据具体推理框架(huggingface deepspeed亦或是vllm)来制定,大体上分为①自回归生成的中间数据和②对应这些中间数据的元数据。