
LLM
文章平均质量分 97
一根老麻花
这个作者很懒,什么都没留下…
展开
-
LMDeploy 量化 + API 部署 | 书生大模型
InternLM2.5-7B 模型精度为 BF16(1位符号位,8位指数位,7位尾数位),根据上面的计算推导,LMDeploy 推理精度为 BF16 的 7B 模型需要使用 14GB 的显存。在最新的版本中,LMDeploy 使用的是 AWQ 算法,能够实现模型的 4bit 权重量化:(大概需要 8 小时)实际加载模型后,其他项也会占用部分显存,因此剩余显存比理论偏低,实际占用会略高于 22GB 和 34.8GB。从默认比例的 0.8 调整到 0.4 后,显存占用减少了约 4GB。原创 2024-11-19 17:13:33 · 964 阅读 · 0 评论 -
InternVL 多模态模型部署微调实践 | 书生大模型
多模态大模型是指能处理和融合多种不同类型数据(如文本、图像、音频、视频等)的大模型常见的 MLLMInternVLGPT-4oQwen-VLLLaVA基座模型选用 InternLM2 - Chat - 20B视觉编码器选用 InternVit - 6B对齐模块选用 MLP projector主要通过## 1.导入相关依赖包## 2.使用你的模型初始化推理管线## 3.读取图片(此处使用PIL读取也行)## 4.配置推理参数。原创 2024-11-15 18:40:11 · 1984 阅读 · 0 评论 -
XTunner 微调解读补充
核心:如果有 N 个并发工作的进程,ZeRO-1 会将完整的优化器状态分成 N 份,每份独立保存在不同的进程里。在反向传播完成后,每个进程只负责处理和更新它自己那部分的优化器状态。更新后的分区 FP32 主参数会通过全体汇集(All-gather)操作回传到每个进程,从而完成一轮参数的更新。ZeRO-1 主要优化了优化器状态的存储,而 ZeRO-2 在 ZeRO-1 的基础上进一步对梯度进行了分片处理。配置了用于因果语言模型的监督式微调模型,包括分词器和模型的配置,以及模型量化和参数适应的详细设置。原创 2024-11-13 14:50:36 · 840 阅读 · 0 评论 -
XTuner 微调实践 | 书生大模型
在 XTuner 中提供了一键合并的命令 xtuner convert merge,在使用前我们需要准备好三个路径,包括原模型的路径、训练好的 Adapter 层的(模型格式转换后的)路径以及最终保存的路径。对于 LoRA 或者 QLoRA 微调出来的模型其实并不是一个完整的模型,而是一个额外的层(Adapter),训练完的这个层最终还是要与原模型进行合并才能被正常的使用。脚本来观察微调后的对话效果,不过在运行之前,我们需要将脚本中的模型路径修改为微调后的模型的路径。表示合并后的模型最终的保存路径。原创 2024-11-12 16:18:15 · 1124 阅读 · 0 评论