
大模型
文章平均质量分 93
PEAKKIZZA
MLsystem入门小白
展开
-
【论文阅读】DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers
为多维Transformer实现高效的序列并行性关键思想是根据当前计算阶段动态切换并行维度,与应用传统的单维并行性相比,这种动态维度切换允许以最小的通信开销实现序列并行性。原创 2024-04-20 17:40:44 · 1737 阅读 · 1 评论 -
【论文阅读】S3: Increasing GPU Utilization during Generative Inference for Higher Throughput
名字:schedulingsspeculation除了已经很大的模型参数之外,保存序列中先前标记信息的键/值 (KV) 缓存可能会变得比模型本身还要大。它为KV缓存保留了内存的最大序列长度,以保证在不知道输出序列长度的情况下生成完整的序列。这限制了我们使用较小的批量大小,从而导致 GPU 利用率较低,最重要的是吞吐量较低。设计一个系统预测输出序列的长度根据长度生成query内存容量和带宽。凸显了内存限制以及高效内存利用以提高 GPU 计算资源利用率的需求。批次内输入共享模型权重。原创 2024-03-24 21:09:45 · 1172 阅读 · 1 评论 -
论文阅读(第四部分):Full Stack Optimization of Transformer Inference: a Survey
虽然结构化剪枝可以在没有额外硬件支持的情况下提供内存、能耗和延迟等方面的好处,但众所周知,它比非结构化剪枝获得更低的压缩率,激活修剪裁剪掉了推理过程中的冗余激活,对于Transformer模型尤其有效。在某些情况下,量化也使得在仅有整数的硬件单元中部署DNN模型成为可能,否则可能是不可能的,或者可能会为卸载片外的非整数操作带来相当大的开销。特别是,必须特别考虑量化没有精度下降的。**对MHA和FFN模块使用单独的数据通路可以具有更高的面积开销,但与对这两个模块使用单一的数据通路相比,可以实现更积极的优化。原创 2024-01-30 14:16:33 · 991 阅读 · 0 评论 -
论文阅读(第三部分):Full Stack Optimization of Transformer Inference: a Survey
但是,shared memory 中的每个元素都别使用了 16 次,从而使总的 global memory 访问量减少 16 倍,变为 2 x 32 x 32 x 32 / 16 ,Computation-to-memory ratio 为 4 (flop/byte),比之前提高了 16 倍。这种技术在设计阶段特别有用,因为在设计阶段,对实际硬件的剖析可能是困难的,但为了做出设计决策,分析是必要的我们提供了使用解析建模来获得延迟崩溃和非理想算术强度的例子。**是一种专门用于特定应用领域的集成电路。原创 2024-01-29 14:27:47 · 948 阅读 · 0 评论 -
论文阅读(第二部分):Full Stack Optimization of Transformer Inference: a Survey
相反,如果算术强度低于阈值,那么该操作就是内存受限的,对处理器进行参数调整以更有效地利用处理器是无效的。ResNet50 without any operator fusion consumes 3.07 times fewer FLOPs and 1.28 times fewer MOPs导致更小的端到端的算术密度,这事因为很少的非线性操作FLOPs消耗但是有比较大的MOPs消耗类似于BERT-Base encoder。相对于投影层,act-to-act matmul的算术密度较低,因为这两个操作中的。原创 2024-01-27 21:32:49 · 980 阅读 · 1 评论 -
论文阅读(第一部分):Full Stack Optimization of Transformer Inference: a Survey
and **passes it through multiple Transformer encoder blocks,***并且提取输入的序列的高级别特征,这些提取的特征之后进入decoder,它负责为目标语言生成tokens,这是基于encoder的源语言特性以及它之前生成的tokens。要将此操作与前面的matmul操作融合,在写出结果之前必须在reduction维度上累积整个输出矩阵(计算均值和方差的维度),这倒是不规则的tiling维度和更低的数据重用。,需要专门的支持或片外计算。原创 2024-01-26 20:44:47 · 1076 阅读 · 1 评论 -
论文阅读:EFFICIENTLY SCALING TRANSFORMER INFERENCE
较大的批大小需要更多的内存空间,但可以加快训练速度。一个 epoch(时期)表示所有训练样本完成一次前向传播和反向传播,而**批大小则决定了完成一次 epoch 需要进行多少次迭代。**举例来说,如果有1000个训练样本,批大小设置为500,那么完成一个 epoch 需要进行2次迭代。较小的批大小可以节省内存空间,但估计梯度的准确性会降低。另外,原创 2024-01-26 16:04:27 · 2101 阅读 · 1 评论