大家都知道大模型是通过语言序列预测下一个词的概率。假定 x1,x2,x3,...,xn−1{ x_1, x_2, x_3, ..., x_{n-1} }x1,x2,x3,...,xn−1 为已知序列,其中 x1x_1x1, x2x_2x2, x3x_3x3, …, xn−1x_{n-1}xn−1 均为维度是 dmodeld_{model}dmodel 的向量,qnq_nqn, knk_nkn, vnv_nvn 同为向量。当输入 xnx_n
为什么KV Cache只有KV,没有Q
于 2024-08-06 15:21:41 首次发布