smartcat2010-优快云博客

原创算法工程汇总（通信框架）

Infiniband: 8GB/s为什么快：自己是一套协议，不需要窗口流控，路由更直接；接收方空间够，发送方才发送; 无需CPU介入；NVLink: 60GB/s!CUDA-aware MPI:用了拆小包Pipeline；用了GPUDirect直达；忽略CPU和主存，忽略Host buffer、CUDA buffer、网卡buffer；例子:OpenMPI；Ri...

2020-02-06 20:00:50 663 1

原创算法工程知识汇总（神经网络）

神经网络预测推理---TensorRT: （比Tensorflow的推理快20倍)1. Kernel融合: 横向融合(例如1*1卷积等), 纵向融合（卷积+bias+Relu)，消除concatenate层（预分配输出缓存,跳跃式的写入）；2. 量化成FP16或者INT8: 减少显存占用，加快推理速度；3. Auto-Tuning:例如，对于卷积计算有若干种算法，TensorRT会...

2020-02-06 18:21:32 573

原创《Self-Adapting Language Models》（SEAL）代码阅读笔记

用train_sequences对model进行lora SFT训练，用训练前和训练后的模型分别评测eval_questions，得到2组正确率指标；（所有文章数n，每篇生成k个self-edit，一共是n*k个prompt，其中每个文章的k个prompt是相同的）（最后输出到文件）脚本：sbatch knowledge-incorporation/scripts/make_squad_data.sh。（如果用的instruct model，只需要按照该model的标签和role来写即可：）

2025-06-25 12:02:30 187

原创自主学习-《WebDancer:Towards Autonomous Information Seeking Agency》

代码：相关工作：

2025-06-19 11:53:04 274

原创自主学习-《Can Large Reasoning Models Self-Train？》

实验表明，用不同的validation-set来测（不一定和该train set分布相同，只要领域一样就行，比如训练数学就用数学的validation set)，得到的stop位置是差不多的。2. 使用固定的（不参与训练）模型输出的结果作为“正确”答案，放弃用训练中的主模型的结果做答案。这样使得训练中的模型更倾向拟合“正确”答案，而不是去拟合让所有结果都一样。核心思想：LLM自己生成题目的“正确”答案，不借助人工或者外部给的答案。原因：模型作弊，倾向产生多组一致性的结果，而不是倾向产生正确的结果。

2025-06-18 13:22:07 335

原创自主学习-《Self-Adapting Language Models》

学生把备考的东西，以自己的方式记成笔记精华，更有利于他的理解和记忆。

2025-06-17 13:20:25 202

原创自主学习-《Absolute Zero: Reinforced Self-play Reasoning with Zero Data》

2. RLVR: 推理过程由agent自我生成和学习，计算reward的gold值是环境或工具给出的，题目仍需要人工给出；3. 本方法：题目也是agent自己生成的。（gold值仍需环境或工具给出）。1. 监督学习：需要人工给出推理过程；

2025-06-15 21:47:28 156

原创 FlashAttention-1、2、3的区别

均采用分块策略将输入矩阵划分为小块（Tile），在GPU的快速SRAM（共享内存）中完成局部计算，通过逐块迭代累积全局结果，避免将完整注意力矩阵写入HBM。在批次（batch）和注意力头（head）维度并行化，但对长序列的并行支持有限，导致GPU利用率较低（如A100上仅达理论FLOPs的25-40%）。在反向传播时，不存储前向传播的中间矩阵，而是通过保留的统计量（如softmax的归一化系数）重新计算中间结果，以节省显存。，并减少HBM读写次数。），从而解决注意力计算中序列长度的平方复杂度（

2025-02-24 08:25:05 1223

原创 async checkpointing

异步CPU->Disk步骤，有用到组播通信，会干扰训练中的AllReduce等组播通信。解决方法：更换了Communication Group。核心思想：GPU->CPU，用的是blocking；CPU->Disk，用的是异步不阻塞训练。最初来源：IBM Research。

2025-02-21 00:08:53 247

原创训练数据为什么需要Shuffle

**批训练**：在实际训练中，通常采用批训练的方式，即每次训练使用一个批次的数据。- **稳定训练过程**：通过打乱数据顺序，模型在每轮训练中都会遇到各种类型的样本，从而平滑地调整参数，减少模型抖动，提高训练过程的稳定性[3]。- **打乱数据顺序**：通过每轮都打乱数据顺序，模型无法依赖数据的顺序特征，从而被迫学习到更泛化的特征，提高模型的泛化能力[3]。- **确保独立性**：通过打乱数据顺序，每个样本在每轮训练中都以相同的概率出现，从而满足独立同分布假设，提高模型的训练效果[3]。

2025-02-17 22:24:36 493

原创 VLLM历次会议(2024.9)

多模态上做了很多新功能。

2025-02-15 09:56:45 240

原创 FlashInfer: Cascade Inference

requests之间的prompts呈现是一棵前缀树时，除了叶子，枝干部分都是被多个requests所共享的，可以每个枝干只计算1次。每个SM上的thread block，可以计算1份共享前缀，或1份叶子（非共享的后缀）。多组并行在多个SM上。batch里requests之间有共享前缀时，可以将共享前缀的Q*K*V只计算1次。

2025-02-15 00:22:13 258

原创 VLLM历次会议(2024.7)

vllm git下的子项目：llm-compressor。CPU-GPU之间有NVLink。的机器上，变慢的幅度小。

2025-02-13 23:25:32 220

原创 VLLM历次会议(2024.6)

NCCL和custom allreduce(应该就是指one-shot和two-shot以及half-bufferfly那些，小数据量通信情况下，降低延迟用的）原理就是新到request的prefill，不阻塞正在decode的request。和continous batching一起使用时，为什么加速比和qps有关？qps上来以后，延迟能有明显的优化。

2025-02-13 00:29:53 203

原创 FlashDecoding

每个SM block上的Q，负责和所有K和所有V进行计算，得到对应的结果。但是，在decoding阶段，因为Query的seqLength=1，且batchSize=1，因此SM block数目无法都利用上。缺点：最后需要将不同SM block上的中间结果，进行通信，进行归一化的softmax和结果Reduce。在prefill阶段，seqLength*batchSize*Heads足够多，所以每个SM block上有足够多的Query。期间，SM block彼此之间，不需要通信。

2025-02-12 20:49:17 263

原创 VLLM历次会议(2024.4)

latency可以显著减少。VLLM continous batching是prefill优先。Sarathi-Serve用了chunked-prefill。VLLM后续会做这个。预先算好KV cache，遇见公共前缀，复用之，避免再计算一遍。增加Marlin Kernel，INT4 quantization时可加速。场景：1. 多轮对话。2.公共的system prompt。支持正则表达式、JSON格式等。通过Outlines工具实现。

2025-02-12 18:29:13 239

原创 VLLM历次会议(2024.1)

two-shot的实现，是先reduce-scatter，每个node读取所有node上的一部分数组，加和之后，再all-gather广播到所有node使得每个node上有完整的加和后数组。one-shot的实现，是all-to-all，每个node一把读取所有node上的整个数组。传输数据量小时，latency-bound，因此NCCL的double-tree和ring-allreduce的延迟较大。3. 支持量化：GPTQ，AWQ，SqueezeLM，FP8-E5M2 KV cache。

2025-02-09 22:56:46 372

原创 VLLM历次会议(2023.10)

PagedAttention: 类似OS的虚存分页那样，管理KV Cache显存。

2025-02-09 10:19:51 186

原创 CUDA Graph

CUDA Graphs 是编程模型中的一种技术，旨在优化 GPU 程序的性能。它允许将一系列连续的 GPU 操作（如计算和数据传输）连接成一个“图”结构，并一次性提交给 GPU 来执行8。这样做可以减少 kernel launch 的开销，因为传统的 CUDA 程序中，每个 kernel 都需要单独提交给 GPU，而这些提交操作本身也会产生一定的开销。

2025-02-08 21:24:44 574

原创 FLOPS计算

【代码】FLOPS计算。

2025-02-08 11:56:42 209

原创多种量化方式联合使用

SmoothQuant是W8A8，GPTQ是W8A16，两者一起使用，可以得到精度损失更小的W8A8量化。

2025-02-05 13:32:07 510

原创 Guided Decoding (借助FSM，有限状态自动机）

即把要求的输出格式，编译为自动机；LLM decode阶段，根据当前自动机状态，只采样（或贪心选择）自动机允许的那些tokens，不允许的那些tokens采样概率强制设为0。输出格式里规定好的字符串，可以强制交给LLM，无需LLM自己去生成。以上指定输出格式，可以通过有限状态自动机“辅助”LLM来实现。

2025-02-04 23:10:48 264

原创 Speculative Decoding多篇主流论文的总结

先用小且快的draft模型，生成几个tokens。再用大而慢的模型，将这些input+output tokens批量输入，一次forward得到每个token的下一个token，只保留前面和draft结果完全相同的部分，不同的部分扔弃。把draft模型的最后一层激活，除了经过原本的LM Head预测1个token，还要经过多个Medusa Head预测N+1, N+2, N+3等位置上的tokens。选那条预测结果和draft结果的前缀相同最长的那条，作为最终结果。MEDUSA(美杜莎）

2025-02-03 07:35:53 323

原创 Automatic Prefix Caching

APC技术，遇到新prompt和老prompt前缀完全相等的，则复用老prompt的KV cache，避免重新计算。3. 只要前面有1个字符不同，后面完全相同的部分，也不能被视为公共前缀。2. prefill公共前缀较长，且decode output较短时，KV cache复用的威力才能发挥出来。则把长文档放到前面，可以复用KV cache。enable_prefix_caching，prompt的KV cache都会被复用。多轮对话聊天历史，放到前面，可以复用KV cache。

2025-02-01 20:13:58 498

原创 Sarathi的chunked prefill论文

3. 耗时大的部分：2个FFN，preproj，postproj。1. Prefill阶段，batch size为1时，GPU算力已满(saturate)，所以提高batch size不能减少单个request的耗时。4. 它的实验里，batch-size为1时，1个decode的平均耗时，是1个prefill的平均耗时，的200倍。（似乎没有打成batch，是一个一个独立计算的）。2. Decode阶段，因为是memory-bound，提高batch size几乎可以让单个request的耗时线性减少。

2025-02-01 06:55:59 618

原创 continuous batching、chunked-prefill相关概念

decode那个batch的token较少填不满batch时，才会把prefill加进来。DeepSpeed是chunked prefill，即把input拆分，和decode阶段的batch到一起。continuous batching是每完成1个request，就让1个新request加入到batch里。好处：可以让decode阶段的一个batch的token数目不减少，确保计算密度。batching是所有requests的output都生成完毕之后，才能开始处理下一个batch。

2025-01-30 22:49:18 753

原创 VLLM性能调优

减少max_num_seqs或max_num_batched_tokens。减少一个batch里的请求、token个数，从而减少KV cache占用。显存不够的时候，某些request会被抢占。其KV cache被清除，腾退给其他request，下次调度到它，重新计算KV cache。可以查看VLLM自带的Prometheus指标，查看抢占的请求数量。- 增大gpu_memory_utilization。提高KV cache占用的显存百分比。- 增大tensor_parallel_size。

2025-01-30 21:40:40 1228

原创 LLM大模型推理中的常见数字

1. 聊天机器人Chatbot，一般，input tokens : output tokens = 1100:15。4. 4张带有NVLink的A100，在70B模型上的推理加速比，大约是3x（即是单张A100卡吞吐量的3倍）。3. prefilling阶段的吞吐量(tokens/s)，一般是decoding阶段的50~100倍。2. LLama2的tokenizer，中文情况下，token:汉字=1:1.01。

2025-01-26 23:35:33 288

原创 NCCL的多种通信拓扑

节点内先AllReduce一把，结果再在跨机器上AllReduce；优点：减少速度较慢的跨机器通信的数据量；大集群：Double-Tree;优点：hop数是lg(N)，延迟减少；缺点：GPU多了以后，延迟太大，N；

2025-01-22 18:13:43 897

原创 DeepSeek-v3在训练和推理方面的优化

4.MoE的load-balance：训练中，边训练，边调整每个MoE的路由权重。负载高的减少权重，负载低的增加权重。缺点是影响模型训练的主目标）。可以一次推理多个tokens。3.基础架构：MoE，同等参数量（模型的”能力“）下，训练、推理的计算量大幅减少。2.基础架构：MLA，大幅减少了KVcache大小。训练的时候就是一次预测多个tokens，推理时也这样，所以效果更好。限制每个token最多和M个GPU上的experts进行通信。训练中，用旁路loss来鼓励句子中命中expert更均匀。

2025-01-18 09:46:44 1357

原创 Lora理解&QLoRA

Parameter-EfficientFine-Tuning(PEFT)：节约开销的做法，fine-tune少量参数，而不是整个模型；Low-RankAdaptation(LoRA)：是PEFT的一种；冻结原参数矩阵，只更新2个小参数矩阵。

2025-01-17 23:01:19 392

原创 Triton+TensorRT-LLM在70B模型上的多组实验

2. tp并行，增大并发数，吞吐量显著增大。400个请求，串行：225秒全部完成，4路并行：128秒全部完成。因此，W4的显存读取加速，并不明显。特别是高并发的时候，吞吐量增加明显。分析：聊天任务input长output短，计算密集任务，因此W8A8的int8矩阵乘法，相比W8A16的bf16乘法，5. 中文xiaoice chat的calibration数据集，相比英文的数据集，精度不升反降。3. context并行，基本和tp并行的性能持平，没有变化。1. 单机内部，tp并行，速度比tp并行，要快。

2025-01-13 18:34:38 273

空空如也

空空如也