模型加速_AI专题精讲的博客-优快云博客

模型加速

关注

文章平均质量分 95

AI模型加速是指通过优化算法、模型结构或硬件执行方式，提升人工智能模型推理和训练速度的技术集合。其核心目标是在保持或尽可能接近原始精度的前提下，显著减少模型的计算量、内存占用和延迟，从而提升部署效率与用户体验。常见的加速手段包括模型剪枝、量化、蒸馏、稀疏化、低秩分解、算子融合，以及结合GPU、TPU

关注数：文章数：2 文章阅读量：1470 文章收藏量：323

作者: AI专题精讲

更多专题内容,欢迎关注微信公众号:AI专题精讲最新论文分享网站：www.aizhuanlan.net 数学公式Latex识别: www.aikitbox.net

展开

专栏收录文章

Block Transformer：面向快速推理的全局到局部语言建模

我们提出了，它将分层的全局到局部建模方法引入自回归 transformer，以缓解自注意力机制在推理过程中的瓶颈。自注意力机制需要在每一步解码时，从内存中检索所有历史序列的 key-value（KV）缓存以获取上下文信息，这在批量推理时导致两个主要瓶颈。首先，在获取首个 token 时存在显著延迟，因为必须先处理整个提示信息以预填充 KV 缓存。其次，后续 token 的计算受限于高内存 I/O 需求，需要读取整个 KV 缓存，而其大小随着序列长度线性增长，最终导致整体二次的内存读取开销。我们设计。

原创 2025-08-14 07:39:42 · 716 阅读 · 0 评论
BitDelta: 你的微调也许只值一比特

大语言模型（LLMs）通常通过两个阶段进行训练：首先在大规模互联网数据集上进行预训练，然后进行下游任务的微调。鉴于预训练在计算资源上更为昂贵，直觉上我们可以假设微调为模型添加的信息更少，因此更容易压缩。我们通过将微调后的模型权重分解为其预训练部分和额外的delta，来验证这一假设。我们提出了一种简单的后微调方法——BitDelta，它能够在不影响性能的前提下将这个delta量化为1比特。这一有趣的发现不仅揭示了微调中新增信息的潜在冗余性，也对微调模型在多租户部署与存储中的应用具有重要意义。

原创 2025-07-24 16:42:13 · 755 阅读 · 0 评论

模型加速

作者: AI专题精讲

Block Transformer：面向快速推理的全局到局部语言建模

BitDelta: 你的微调也许只值一比特