开源视觉大模型的部署与应用测试实验

       继去年的大模型对外提供的三种应用服务blog基础上,根据对文本生成大模型的研究,基本上实现了本地部署,应用服务设计实现,文本大模型微调等工作。最近结合实际需求,开展了图像识别,特别是图像生成文本,图像整体描述,图像要素描述,图像属性描述,多张图像对比和图像文字识别等等,本文结合目前已开源的三类视觉大模型进行部署实现,实现顺序是先做托管的终端服务,以方便程序调试使用,其次做api服务,方便其他系统或工具调用或联调使用,最后提供web工具,方便用户实际测试使用。目前已支持Llama-3.2-Vision、glm-4v和Qwen2-VL视觉大模型。中间也碰到很多坑(比如transformer源码安装,transformer版本问题,大图像文件的处理等),因此分享出来供大家参考。
运行环境:
Python=3.10.14,transformer=4.45.2,torch=2.4.0,flash_attn=2.5.9,accelerate=0.34.0,qwen-vl-utils=0.0.5,Pillow=9.5.0,fastapi=0.110.3,uvicorn=0.30.6,gradio=4.26.0

一、下载视觉大模型

通过魔塔或者huggingface下载Qwen2-VL、Llama-3.2-Vision和glm-4v视觉开源大模型。

二、安装依赖包

主要是transformer和加速包,以及大模型对应的r

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一望无际的大草原

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值