- 博客(154)
- 资源 (3)
- 收藏
- 关注
原创 LLM推理过程:Prefill+Decode
LLM推理的两阶段划分源于输入与输出的计算特性差异:Prefill充分利用并行性处理已知输入,Decode则通过串行和缓存复用实现高效生成。这一设计平衡了计算效率与资源消耗,是LLM落地应用的核心优化基础。
2025-07-11 17:45:45
610
原创 Lookahead:Trie 树(前缀树)
问题答案初始内容通常为空树,或预填充一些常见 n-gram。建立过程通过插入候选 token 序列(n-gram)动态构建。作用快速匹配候选序列,减少重复计算,提高效率。更新策略动态插入新序列,删除过期序列,控制内存使用。Trie 树是 Lookahead 框架中实现高效候选序列管理的关键数据结构,通过共享前缀和快速匹配,显著提升了推理加速的效果。
2025-07-11 16:07:22
241
原创 Lookahead预生成Token机制:Jacobi迭代解码+二维窗口(2D Window)
并行本质Jacobi迭代 → 将序列生成转化为并行方程组求解2D窗口 → 通过结构化猜测约束搜索空间工程优势单次前向传播生成多候选,GPU利用率提升3倍KV缓存复用降低显存压力应用场景长文档生成、批量代码补全等高吞吐需求场景💡扩展方向与量化感知训练结合,进一步压缩计算开销拓展至多模态生成(如图文交错序列)
2025-07-11 16:03:02
743
原创 几种LLM推理加速技术的区别
以下是自回归基线、投机采样、Medusa、EAGLE系列(EAGLE-1/2/3)及Lookahead解码技术的综合对比分析,基于其核心原理、性能指标及适用场景归纳:自回归基线投机采样(Speculative Sampling)MedusaLookahead DecodingEAGLE-1EAGLE-2EAGLE-3
2025-07-10 17:58:56
879
原创 对比:投机采样(Speculative Decoding)和 Lookahead Decoding
投机采样(Speculative Decoding)和Lookahead Decoding是两种用于加速大语言模型(LLM)推理的技术,虽然目标相似(减少自回归解码的延迟),但核心思想、实现方式和适用场景存在显著差异。
2025-07-10 11:41:23
690
原创 蚂蚁集团(Alipay):Lookahead
该论文的核心贡献是提出了一种面向工业级场景的无损推理加速框架问题精准定位:针对RAG系统延迟瓶颈,平衡准确性与实时性需求。方法创新多分支生成:通过Trie树利用历史数据分布,变串行为并行;验证保障:VA机制确保输出一致性,消除近似风险。落地价值:在支付宝等金融场景中验证了2倍+加速比,为高并发服务提供新范式。数据高效性:利用RAG场景的检索内容直接构建候选序列,降低计算冗余。工程普适性:无需微调即可适配主流模型,支持工业级部署。
2025-07-09 20:30:18
852
原创 投机采样(Speculative Decoding)
范式,在保证生成质量的前提下显著降低主模型的计算负载,是当前LLM推理加速领域的重要突破。核心思想是通过并行预测和验证候选Token序列,减少自回归解码的延迟,同时保持生成质量无损。,并通过系统级优化(如缓存复用、动态批处理)进一步释放性能潜力。,从而减少主模型的计算量,同时保持生成结果的准确性。的技术,其核心思想是通过。
2025-07-09 19:49:40
925
原创 Firmware(固件)和 Runtime(运行时)
两者的关系类似于“高速公路”与“交通规则”——Firmware 提供道路(硬件能力),Runtime 制定规则(任务调度),共同保障系统高效运行。两者的关系可以类比为“操作系统内核”与“进程调度器”的关系:Firmware 提供底层能力,Runtime 利用这些能力管理具体任务的执行。Firmware(固件)和 Runtime(运行时)在系统架构中紧密协作,但职责不同。** 分层架构中的角色**
2025-07-09 16:56:24
924
原创 KV Cache(Key-Value Cache)原理和应用
KV Cache是Transformer推理的基石技术,通过缓存历史K/V向量解决了自回归生成的效率瓶颈。随着模型规模扩大和应用场景复杂化,KV Cache的优化(如压缩、动态管理)仍是提升大模型落地能力的关键方向。
2025-07-09 15:00:24
651
原创 大语言模型(LLM)按架构分类
当前趋势显示Decoder-Only架构(如GPT-4、Llama 2)通过指令微调也能实现部分理解任务能力,但专业场景仍推荐专用架构。
2025-07-03 11:48:29
983
原创 BERT(Bidirectional Encoder Representations from Transformers)
BERT是一种专注于语义理解的LLM,通过双向Transformer编码器预训练获得上下文感知的文本表示,擅长NLU任务但无生成能力。它奠定了现代LLM的基础范式,与GPT等生成模型形成互补。
2025-07-03 11:24:32
380
原创 LLM的推理过程
理解这些阶段有助于针对性优化(如降低长prompt的Prefill开销,或提高Decoding的并行度)。,还包含多个关键阶段,每个阶段对性能和资源消耗有不同的影响。在大型语言模型(LLM)的推理过程中,除了。:生成每个输出token时。
2025-06-16 17:24:56
721
原创 LLM的推理和训练过程
2. 模型预训练目标:通过自监督学习获取语言建模能力。核心方法:自回归建模(如GPT):预测下一个token,损失函数为交叉熵。掩码建模(如BERT):随机遮盖token并预测。计算特点:硬件需求:千卡GPU集群(如A100/H100),显存优化(ZeRO-3、梯度检查点)。并行策略:数据并行:拆分batch到多GPU。张量并行:拆分模型层(如Megatron-LM的层内并行)。流水线并行:拆分模型块(如GPipe)。代码示例(PyTorch):3. 指令微调
2025-06-16 16:53:16
869
原创 XAttention 计算步骤详解及示例
来优化长序列 Transformer 模型的推理效率。以下是其核心计算步骤及具体示例。XAttention 是一种高效的块稀疏注意力机制,通过。XAttention 在长文本和视频任务中可加速。的注意力权重,并加权聚合。,同时保持全注意力的精度。
2025-06-13 19:35:54
560
原创 SageAttention2原理和计算过程
概述SageAttention2 是一种高效的自注意力机制优化方案,通过结合离群值平滑(Outlier Smoothing)和逐线程 INT4 量化(Per-thread INT4 Quantization),显著提升 Transformer 模型的推理效率,同时保持较高的模型精度。该方法特别适用于大语言模型(LLMs)和高吞吐量推理场景。核心创新点Thorough Outlier Smoothing(离群值平滑)问题背景。
2025-06-13 19:20:47
795
原创 SDPA(Scaled Dot-Product Attention)详解
(Scaled Dot-Product Attention,缩放点积注意力)是 Transformer 模型的核心计算单元,最早由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》提出。它通过计算查询(Query)、键(Key)和值(Value)之间的相似度,生成上下文感知的表示。这个例子展示了 SDPA 如何动态分配注意力权重,并生成上下文感知的输出。我们通过一个具体的数值例子,逐步演示 SDPA 的计算过程。因此,注意力权重矩阵。
2025-06-13 17:33:15
826
原创 分析大模型的方法
分析一个大模型(如LLaMA、GPT、Stable Diffusion等)需要系统化的方法,既要理解其架构设计,也要掌握训练、推理和应用细节。
2025-06-05 14:38:25
631
原创 扩散模型(Diffusion Models)的革命性进展
阶段核心突破代表模型应用影响基础理论原始扩散模型证明扩散模型可行性加速采样低成本高质量生成,推动AIGC普及可控生成精细化编辑,工业落地多模态扩展突破动态内容生成未来方向一步生成 / DiT实时生成,超大模型扩散模型的革命尚未结束,未来可能在实时交互、3D生成、世界模拟等领域继续突破,成为AGI(通用人工智能)的核心组件之一。
2025-05-07 17:29:27
1023
原创 文生图(Text-to-Image)的发展
文生图模型从早期受限的GAN架构,发展到如今以扩散模型为核心、结合多模态预训练的技术体系,实现了从“能生成”到“高质量、可控、开放生态”的跨越。未来随着多模态大模型的演进,文生图技术将进一步融入创作工具、娱乐和教育等领域,成为AI基础设施的重要组成部分。
2025-05-07 17:26:27
859
原创 DDPM(Denoising Diffusion Probabilistic Models,去噪扩散概率模型)
DDPM即去噪扩散概率模型(Denoising Diffusion Probabilistic Models),是一种生成式模型,在图像生成、视频生成等领域有广泛应用。
2025-05-07 16:49:31
810
原创 Diffusion Transformer(DiT)
DiT通过Transformer的全局注意力机制和ViT的patch处理方式,解决了传统U-Net在长距离依赖和扩展性上的局限,成为扩散模型的新范式。其处理过程结合了条件控制、噪声预测和逐步去噪,适用于图像、视频等多种生成任务。以下是针对论文中。
2025-05-06 20:00:05
800
原创 Stable Diffusion 3(SD3)
SD3 的推理流程主要包括文本编码、初始化噪声、逐步去噪和解码生成。训练流程则包括数据预处理、噪声添加、训练扩散模型、验证和调整、微调和保存模型。通过这些步骤,SD3 能够高效地生成高质量的图像,并且在文本到图像合成任务中表现出色。去噪过程:从 t = T 开始,逐步减少时间步 t,直到 t = 0。每一步中,模型预测当前噪声,并从当前表示中减去预测的噪声。时间步的设置:时间步 t 通常是一个从 1 到 T 的整数序列,其中 T 是总的时间步数。每一步的时间步 t 对应一个特定的噪声水平。
2025-04-28 12:02:23
1000
原创 Diffusion Model综述
Diffusion(扩散)在 Stable Diffusion 中指的是“加噪-去噪”的生成过程,核心思想是通过学习如何逆转噪声的扩散过程来生成数据。使其高效,条件扩散使其可控,从而能够根据文本生成高质量的图像。生成的图像质量高,细节丰富。可以通过调节噪声步数(如 DDIM 的)平衡生成速度和质量。结合文本条件,实现高度可控的图像生成。
2025-04-25 16:35:57
1218
原创 XAttention
XAttention是韩松团队提出的一种创新的块稀疏注意力机制,旨在解决传统Transformer模型在处理长上下文时面临的计算效率瓶颈问题。该论文通过引入反斜对角线评分(antidiagonal scoring)方法,实现了在不牺牲模型性能的前提下显著加速Transformer推理过程,特别是在多模态任务中表现出色。本文将详细介绍XAttention的核心思想、技术实现、实验验证及其在长上下文Transformer模型(LCTMs)中的应用价值。
2025-04-22 19:36:22
531
原创 XAttention
XAttention是韩松团队提出的一种创新的块稀疏注意力机制,旨在解决传统Transformer模型在处理长上下文时面临的计算效率瓶颈问题。该论文通过引入反斜对角线评分(antidiagonal scoring)方法,实现了在不牺牲模型性能的前提下显著加速Transformer推理过程,特别是在多模态任务中表现出色。本文将详细介绍XAttention的核心思想、技术实现、实验验证及其在长上下文Transformer模型(LCTMs)中的应用价值。随着大语言模型(LLMs)和多模态模型的快速发展,长上下文T
2025-04-21 21:54:58
1090
原创 Transformer :Encoder vs Decoder
Transformer 的编码器和解码器在自然语言处理(NLP)、计算机视觉(CV)、语音识别等多个领域有着广泛的应用,并且在不同任务中展现出强大的能力。两部分组成,二者在结构、功能和数据流上存在显著差异。Transformer 模型由。
2025-04-18 14:16:20
694
原创 SDPA:Scaled Dot-Product Attention(缩放点积注意力)
Scaled Dot-Product Attention(缩放点积注意力)是 Transformer 架构中的核心机制,由。它用于计算输入序列中不同位置之间的相关性,从而动态调整权重,使模型能够关注最重要的信息。如果你在实现 Transformer 或阅读相关论文时遇到它,现在应该能清晰理解它的原理了!
2025-04-17 20:13:11
951
原创 SageAttention2
研究背景:随着序列长度增加,注意力机制的二次时间复杂度使其高效实现变得关键。现有优化方法各有局限,如线性和稀疏注意力方法适用范围有限,常用的注意力方法如FlashAttention、xformers和SageAttention等虽有不错性能,但SageAttention存在INT8矩阵乘法速度慢和特定GPU加速受限的问题。相关工作:将注意力计算中的矩阵按token维度分块并行计算,降低计算复杂度,提升计算效率。量化:通过将高精度矩阵转换为低精度格式加速矩阵乘法,不同量化器在数值格式和粒度上有差异。
2025-04-11 18:29:48
1131
原创 Synopsys Design Compiler(DC)
工艺角:在集成电路制造过程中,由于光刻、掺杂等工艺步骤存在一定的偏差,会导致实际制造出来的晶体管参数(如阈值电压、载流子迁移率等)与设计值存在差异。为了确保芯片在不同的工艺条件下都能正常工作,通常会定义几种典型的工艺条件组合,即工艺角。常见的工艺角包括 FF(Fast - Fast,快速工艺、高电压、低温)、SS(Slow - Slow,慢速工艺、低电压、高温)等。
2025-04-03 15:17:11
749
原创 makefile+LSF
LSF(Load Sharing Facility)是一种常用的集群作业调度系统,bsub命令用于提交作业到 LSF 集群,而若要关闭(终止)一个正在运行的作业,需要使用bkill。
2025-02-19 22:23:43
462
原创 DW:Design ware
DW_fifo_s1_sf 和 DW_fifo_s2_sf 是 DesignWare 提供的两种 FIFO IP 核,主要用于数据缓冲和同步。DW_fp_flt2i 专门用于将符合 IEEE 754 标准的浮点数转换为整数。
2025-02-19 21:53:41
485
原创 搭建仿真环境-vcs
环境变量作用: 这是Synopsys DesignWare库的根目录,通常包含DesignWare IP核的源代码、仿真模型、综合脚本等。内容:sim_ver: Verilog仿真模型。synthesis: 综合脚本和约束文件。docs: 文档。用途: 用于仿真和综合过程中调用DesignWare IP核。作用: 这是DesignWare库的仿真模型目录,专门用于仿真。通常包含Verilog或SystemVerilog的仿真模型文件。
2025-02-18 14:29:58
849
原创 Miniforge 安装器
https://github.com/conda-forge/miniforge/?tab=readme-ov-file#download简介Miniforge 是一个由社区驱动的软件包管理器和环境管理器,旨在提供一个轻量级的替代品来安装和管理 Python 及其相关库。以下是关于 Miniforge 的详细介绍:简介:优势:安装:在 macOS 或 Linux 上,使用终端运行下载的 sh 脚本,例如:配置环境变量:~/.bashrc文件来添加环境变量,例如:初始化 Conda:更新 Conda
2024-07-18 12:30:49
1311
Go语言编程 epub电子书
2018-09-21
区块链技术指南—电子书
2018-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人