- 博客(2)
- 收藏
- 关注
原创 Jetson agx orin 64G LLM 微调、量化、部署(二)
前言: 之前按照网络上的帖子,直接把lora和base合并后,使用llama cpp进行量化,但结果非常不理想,量化后的模型不但失去了Lora权重的能力,并且本身的推理能力也下降了。1. 使用llamacpp,带cuda编译完成后,运行发现gpu未使用,需要增加某个参数,把模型从CPU转到GPU,具体看llamacpp的官方文档。2. 量化后的base直接加载lora,速度很慢,把lora转换为int8的gguf格式,速度正常(最终约比base慢10%)记录其中踩的坑点(主要是jetson的特性)
2024-08-20 17:28:16
579
1
原创 Jetson agx orin 部署 qwen14B 微调、量化 实践
硬件条件:256G 固态硬盘数据线目的:在云端微调模型,在jetson上进行合并和量化,每次更新模型只需要同步微调权重,减少网络压力(12G ->200M)。
2024-08-14 10:25:00
1230
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人