(八)关于InternVL2的优化加速——如何提高三倍的推理速度

(八)关于InternVL2的优化加速——如何提高三倍的推理速度


前言

前面章节《(六)关于InternVL2的单卡、多卡推理》介绍了关于如何使用训练完成的InternVL2模型进行推理。其中单卡、多卡都进行了介绍,但是多卡推理的方式相对于单卡来说仅仅是通过增加总卡的显存从而降低单张卡的显存,并没有实现加速的效果。
所有的大模型官网都会提供推理部署的代码,但是这些都是通过transformers库实现的,而transformers的推理方式都是没有经过加速的方式,往往时间消耗都较大。以我这里的环境为例,一张3090通过transformers构建推理代码,InternVL2-4B推理一张图片需要1.8s,有没有什么方式可以加快推理速度?

大模型的加速方式介绍

我了解的一些目前主流的大语言模型加速方式包括 vLLM、TensorRT-LLM、DeepSpeed、Ollama等。
其中DeepSpeed了解比较多,但更多的还是在训练时用于资源分配。一般使用推理框架的话,都是只能使用别人仓库已经集成好的模型,所以加速方法一般是会慢于模型的开发。这几种方法我实践的不多,有的还没用过,所以这里就简单提一笔。
以上的加速方式都是一些国外的方法,本章节将会介绍如何使用国产框架——LMDeploy 来加速InternVL2模型。
LMDeploy也是由上海人工智能实

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值