
LLM大模型
文章平均质量分 66
chatGPT、智能问答、知识抽取、个人知识库
Sanfor
https://github.com/zhousanfu
展开
-
LLM大模型2_量化
完整值:https://github.com/ymcui/Chinese-LLaMA-Alpaca/blob/main/SHA256.md。合并LoRA,生成全量模型权重。可以直接指定🤗模型库的地址,也可以是本地存放地址。工具对上一步生成的全量版本权重进行转换,生成4-bit量化模型。这一步,我们将模型转换为ggml格式(FP16)。使用下述命令评测后发现两者相同,合并无误。原创 2023-11-27 13:15:32 · 768 阅读 · 0 评论 -
LLM大模型1_基础知识
其次,由於原始模型体积大速度慢等因素很多大老们发明了将其缩小但是不那么影响模型品质的方式,那就是量化,现在最常见的量化方式就是GPTQ和GGML.我们一般都是使用量化后的模型因為他们需要的VRAM或RAM能够降低很多.比如33B的模型没有量化大概需要50G~65G的VRAM或RAM,量化后24G就足够了.实际模型载入大概1XG,剩下的空间用来推理使用,已经完全足够.原创 2023-08-08 19:42:44 · 429 阅读 · 0 评论