深度学习
文章平均质量分 89
jerwey
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LLM推理过程:Prefill+Decode
LLM推理的两阶段划分源于输入与输出的计算特性差异:Prefill充分利用并行性处理已知输入,Decode则通过串行和缓存复用实现高效生成。这一设计平衡了计算效率与资源消耗,是LLM落地应用的核心优化基础。原创 2025-07-11 17:45:45 · 1205 阅读 · 0 评论 -
Lookahead预生成Token机制:Jacobi迭代解码+二维窗口(2D Window)
并行本质Jacobi迭代 → 将序列生成转化为并行方程组求解2D窗口 → 通过结构化猜测约束搜索空间工程优势单次前向传播生成多候选,GPU利用率提升3倍KV缓存复用降低显存压力应用场景长文档生成、批量代码补全等高吞吐需求场景💡扩展方向与量化感知训练结合,进一步压缩计算开销拓展至多模态生成(如图文交错序列)原创 2025-07-11 16:03:02 · 1043 阅读 · 0 评论 -
Lookahead:Trie 树(前缀树)
问题答案初始内容通常为空树,或预填充一些常见 n-gram。建立过程通过插入候选 token 序列(n-gram)动态构建。作用快速匹配候选序列,减少重复计算,提高效率。更新策略动态插入新序列,删除过期序列,控制内存使用。Trie 树是 Lookahead 框架中实现高效候选序列管理的关键数据结构,通过共享前缀和快速匹配,显著提升了推理加速的效果。原创 2025-07-11 16:07:22 · 296 阅读 · 0 评论 -
几种LLM推理加速技术的区别
以下是自回归基线、投机采样、Medusa、EAGLE系列(EAGLE-1/2/3)及Lookahead解码技术的综合对比分析,基于其核心原理、性能指标及适用场景归纳:自回归基线投机采样(Speculative Sampling)MedusaLookahead DecodingEAGLE-1EAGLE-2EAGLE-3原创 2025-07-10 17:58:56 · 1024 阅读 · 0 评论 -
蚂蚁集团(Alipay):Lookahead
该论文的核心贡献是提出了一种面向工业级场景的无损推理加速框架问题精准定位:针对RAG系统延迟瓶颈,平衡准确性与实时性需求。方法创新多分支生成:通过Trie树利用历史数据分布,变串行为并行;验证保障:VA机制确保输出一致性,消除近似风险。落地价值:在支付宝等金融场景中验证了2倍+加速比,为高并发服务提供新范式。数据高效性:利用RAG场景的检索内容直接构建候选序列,降低计算冗余。工程普适性:无需微调即可适配主流模型,支持工业级部署。原创 2025-07-09 20:30:18 · 1006 阅读 · 0 评论 -
投机采样(Speculative Decoding)
范式,在保证生成质量的前提下显著降低主模型的计算负载,是当前LLM推理加速领域的重要突破。核心思想是通过并行预测和验证候选Token序列,减少自回归解码的延迟,同时保持生成质量无损。,并通过系统级优化(如缓存复用、动态批处理)进一步释放性能潜力。,从而减少主模型的计算量,同时保持生成结果的准确性。的技术,其核心思想是通过。原创 2025-07-09 19:49:40 · 1366 阅读 · 0 评论 -
Firmware(固件)和 Runtime(运行时)
两者的关系类似于“高速公路”与“交通规则”——Firmware 提供道路(硬件能力),Runtime 制定规则(任务调度),共同保障系统高效运行。两者的关系可以类比为“操作系统内核”与“进程调度器”的关系:Firmware 提供底层能力,Runtime 利用这些能力管理具体任务的执行。Firmware(固件)和 Runtime(运行时)在系统架构中紧密协作,但职责不同。** 分层架构中的角色**原创 2025-07-09 16:56:24 · 1143 阅读 · 0 评论 -
KV Cache(Key-Value Cache)原理和应用
KV Cache是Transformer推理的基石技术,通过缓存历史K/V向量解决了自回归生成的效率瓶颈。随着模型规模扩大和应用场景复杂化,KV Cache的优化(如压缩、动态管理)仍是提升大模型落地能力的关键方向。原创 2025-07-09 15:00:24 · 960 阅读 · 0 评论 -
LLM的推理过程
理解这些阶段有助于针对性优化(如降低长prompt的Prefill开销,或提高Decoding的并行度)。,还包含多个关键阶段,每个阶段对性能和资源消耗有不同的影响。在大型语言模型(LLM)的推理过程中,除了。:生成每个输出token时。原创 2025-06-16 17:24:56 · 986 阅读 · 0 评论 -
LLM的推理和训练过程
2. 模型预训练目标:通过自监督学习获取语言建模能力。核心方法:自回归建模(如GPT):预测下一个token,损失函数为交叉熵。掩码建模(如BERT):随机遮盖token并预测。计算特点:硬件需求:千卡GPU集群(如A100/H100),显存优化(ZeRO-3、梯度检查点)。并行策略:数据并行:拆分batch到多GPU。张量并行:拆分模型层(如Megatron-LM的层内并行)。流水线并行:拆分模型块(如GPipe)。代码示例(PyTorch):3. 指令微调原创 2025-06-16 16:53:16 · 1093 阅读 · 0 评论 -
XAttention 计算步骤详解及示例
来优化长序列 Transformer 模型的推理效率。以下是其核心计算步骤及具体示例。XAttention 是一种高效的块稀疏注意力机制,通过。XAttention 在长文本和视频任务中可加速。的注意力权重,并加权聚合。,同时保持全注意力的精度。原创 2025-06-13 19:35:54 · 647 阅读 · 0 评论 -
SageAttention2原理和计算过程
概述SageAttention2 是一种高效的自注意力机制优化方案,通过结合离群值平滑(Outlier Smoothing)和逐线程 INT4 量化(Per-thread INT4 Quantization),显著提升 Transformer 模型的推理效率,同时保持较高的模型精度。该方法特别适用于大语言模型(LLMs)和高吞吐量推理场景。核心创新点Thorough Outlier Smoothing(离群值平滑)问题背景。原创 2025-06-13 19:20:47 · 1175 阅读 · 0 评论 -
SDPA(Scaled Dot-Product Attention)详解
(Scaled Dot-Product Attention,缩放点积注意力)是 Transformer 模型的核心计算单元,最早由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》提出。它通过计算查询(Query)、键(Key)和值(Value)之间的相似度,生成上下文感知的表示。这个例子展示了 SDPA 如何动态分配注意力权重,并生成上下文感知的输出。我们通过一个具体的数值例子,逐步演示 SDPA 的计算过程。因此,注意力权重矩阵。原创 2025-06-13 17:33:15 · 1197 阅读 · 0 评论 -
扩散模型调度器(Scheduler)
:原创 2025-06-10 19:40:39 · 506 阅读 · 0 评论 -
LoRA(Low-Rank Adaptation,低秩适应)
LoRA(Low-Rank Adaptation,低秩适应)原创 2025-06-09 20:11:06 · 743 阅读 · 0 评论 -
Python的__call__ 方法
Python的__call__ 方法原创 2025-06-09 16:27:08 · 666 阅读 · 0 评论 -
MLP(多层感知机)
MLP 的核心是。原创 2025-06-05 19:00:14 · 1206 阅读 · 0 评论 -
统计计算量
公式。原创 2025-05-26 15:34:12 · 982 阅读 · 0 评论 -
扩散模型(Diffusion Models)的革命性进展
阶段核心突破代表模型应用影响基础理论原始扩散模型证明扩散模型可行性加速采样低成本高质量生成,推动AIGC普及可控生成精细化编辑,工业落地多模态扩展突破动态内容生成未来方向一步生成 / DiT实时生成,超大模型扩散模型的革命尚未结束,未来可能在实时交互、3D生成、世界模拟等领域继续突破,成为AGI(通用人工智能)的核心组件之一。原创 2025-05-07 17:29:27 · 1721 阅读 · 0 评论 -
Diffusion Transformer(DiT)
DiT通过Transformer的全局注意力机制和ViT的patch处理方式,解决了传统U-Net在长距离依赖和扩展性上的局限,成为扩散模型的新范式。其处理过程结合了条件控制、噪声预测和逐步去噪,适用于图像、视频等多种生成任务。以下是针对论文中。原创 2025-05-06 20:00:05 · 1140 阅读 · 0 评论 -
Stable Diffusion 3(SD3)
SD3 的推理流程主要包括文本编码、初始化噪声、逐步去噪和解码生成。训练流程则包括数据预处理、噪声添加、训练扩散模型、验证和调整、微调和保存模型。通过这些步骤,SD3 能够高效地生成高质量的图像,并且在文本到图像合成任务中表现出色。去噪过程:从 t = T 开始,逐步减少时间步 t,直到 t = 0。每一步中,模型预测当前噪声,并从当前表示中减去预测的噪声。时间步的设置:时间步 t 通常是一个从 1 到 T 的整数序列,其中 T 是总的时间步数。每一步的时间步 t 对应一个特定的噪声水平。原创 2025-04-28 12:02:23 · 1484 阅读 · 0 评论 -
Diffusion Model综述
Diffusion(扩散)在 Stable Diffusion 中指的是“加噪-去噪”的生成过程,核心思想是通过学习如何逆转噪声的扩散过程来生成数据。使其高效,条件扩散使其可控,从而能够根据文本生成高质量的图像。生成的图像质量高,细节丰富。可以通过调节噪声步数(如 DDIM 的)平衡生成速度和质量。结合文本条件,实现高度可控的图像生成。原创 2025-04-25 16:35:57 · 2092 阅读 · 0 评论 -
XAttention
XAttention是韩松团队提出的一种创新的块稀疏注意力机制,旨在解决传统Transformer模型在处理长上下文时面临的计算效率瓶颈问题。该论文通过引入反斜对角线评分(antidiagonal scoring)方法,实现了在不牺牲模型性能的前提下显著加速Transformer推理过程,特别是在多模态任务中表现出色。本文将详细介绍XAttention的核心思想、技术实现、实验验证及其在长上下文Transformer模型(LCTMs)中的应用价值。原创 2025-04-22 19:36:22 · 574 阅读 · 0 评论 -
XAttention
XAttention是韩松团队提出的一种创新的块稀疏注意力机制,旨在解决传统Transformer模型在处理长上下文时面临的计算效率瓶颈问题。该论文通过引入反斜对角线评分(antidiagonal scoring)方法,实现了在不牺牲模型性能的前提下显著加速Transformer推理过程,特别是在多模态任务中表现出色。本文将详细介绍XAttention的核心思想、技术实现、实验验证及其在长上下文Transformer模型(LCTMs)中的应用价值。随着大语言模型(LLMs)和多模态模型的快速发展,长上下文T原创 2025-04-21 21:54:58 · 1220 阅读 · 0 评论 -
Transformer :Encoder vs Decoder
Transformer 的编码器和解码器在自然语言处理(NLP)、计算机视觉(CV)、语音识别等多个领域有着广泛的应用,并且在不同任务中展现出强大的能力。两部分组成,二者在结构、功能和数据流上存在显著差异。Transformer 模型由。原创 2025-04-18 14:16:20 · 956 阅读 · 0 评论 -
SDPA:Scaled Dot-Product Attention(缩放点积注意力)
Scaled Dot-Product Attention(缩放点积注意力)是 Transformer 架构中的核心机制,由。它用于计算输入序列中不同位置之间的相关性,从而动态调整权重,使模型能够关注最重要的信息。如果你在实现 Transformer 或阅读相关论文时遇到它,现在应该能清晰理解它的原理了!原创 2025-04-17 20:13:11 · 1236 阅读 · 0 评论 -
卷积神经网络
卷积神经网络转载请注明:http://blog.youkuaiyun.com/stdcoutzyx/article/details/41596663自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet、cuda-convnet2。为了增进CNN的理解和使用,特写此博文,以其与人交流,互转载 2017-06-24 23:59:07 · 479 阅读 · 0 评论 -
深度学习BP算法 BackPropagation以及详细例子解析
反向传播算法是多层神经网络的训练中举足轻重的算法,本文着重讲解方向传播算法的原理和推导过程。因此对于一些基本的神经网络的知识,本文不做介绍。在理解反向传播算法前,先要理解神经网络中的前馈神经网络算法。前馈神经网络如下图,是一个多层神经网络的简单示意图: 给定一个前馈神经网络,我们用下面的记号来描述这个网络: L:表示神经网络的层数; nl:表示第l层神经元的个数;转载 2017-06-24 17:09:31 · 1139 阅读 · 0 评论
分享