大模型加速
文章平均质量分 88
HEU-wings
HEU开放原子开源社团,分享一些技术以及开源知识
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何使用 IPEX-LLM 优化 大模型,并保存到本地
IPEX-LLM 为大语言模型部署提供了一个高效的优化方案。通过本文介绍的优化方法,不仅可以优化 Qwen 模型,还可以推广到其他大语言模型的优化中。优化后的模型在保持性能的同时,显著提升了部署效率。原创 2025-01-10 21:15:20 · 797 阅读 · 0 评论 -
IPEX-LLM PythonAPI接口
为了避免在原始模型加载过程中的高资源消耗,IPEX-LLM提供了 save/load API 来支持保存低位优化后的模型和加载已保存的低位模型。使用 load_in_4bit 或 load_in_low_bit 参数可以将模型的线性层权重加载为低位格式,如 int4、int5 和 int8。: 布尔值,如果模型是常规的 fp16/bf16/fp32 模型,True 表示将线性层权重加载为对称 int4;操作,在 Windows 的 GPU 上运行 IPEX-LLM 时可能需要设置为。原创 2025-01-02 08:34:42 · 940 阅读 · 0 评论
分享