模型加速
文章平均质量分 95
AI模型加速是指通过优化算法、模型结构或硬件执行方式,提升人工智能模型推理和训练速度的技术集合。其核心目标是在保持或尽可能接近原始精度的前提下,显著减少模型的计算量、内存占用和延迟,从而提升部署效率与用户体验。常见的加速手段包括模型剪枝、量化、蒸馏、稀疏化、低秩分解、算子融合,以及结合GPU、TPU
AI专题精讲
更多专题内容,欢迎关注微信公众号:AI专题精讲
最新论文分享网站:www.aizhuanlan.net
数学公式Latex识别: www.aikitbox.net
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Block Transformer:面向快速推理的全局到局部语言建模
我们提出了,它将分层的全局到局部建模方法引入自回归 transformer,以缓解自注意力机制在推理过程中的瓶颈。自注意力机制需要在每一步解码时,从内存中检索所有历史序列的 key-value(KV)缓存以获取上下文信息,这在批量推理时导致两个主要瓶颈。首先,在获取首个 token 时存在显著延迟,因为必须先处理整个提示信息以预填充 KV 缓存。其次,后续 token 的计算受限于高内存 I/O 需求,需要读取整个 KV 缓存,而其大小随着序列长度线性增长,最终导致整体二次的内存读取开销。我们设计。原创 2025-08-14 07:39:42 · 716 阅读 · 0 评论 -
BitDelta: 你的微调也许只值一比特
大语言模型(LLMs)通常通过两个阶段进行训练:首先在大规模互联网数据集上进行预训练,然后进行下游任务的微调。鉴于预训练在计算资源上更为昂贵,直觉上我们可以假设微调为模型添加的信息更少,因此更容易压缩。我们通过将微调后的模型权重分解为其预训练部分和额外的delta,来验证这一假设。我们提出了一种简单的后微调方法——BitDelta,它能够在不影响性能的前提下将这个delta量化为1比特。这一有趣的发现不仅揭示了微调中新增信息的潜在冗余性,也对微调模型在多租户部署与存储中的应用具有重要意义。原创 2025-07-24 16:42:13 · 755 阅读 · 0 评论
分享