【大模型】一个基座模型部署多个lora

接上篇,我们提到,可以使用vllm这个框架加载合并后的lora百川模型。

在实际落地中,如果我们有多个微调任务,难道要分别部署多个微调之后的模型吗?这对GPU的消耗也太高了吧!一种很直接的思路是,将多个微调任务整合起来,一次性lora微调多个任务,这样就只需要部署一个微调模型了。

但如果接到了新的微调需求,就需要把所有lora任务都重新训练一遍,以免遗忘。这样很不方便,从前上线的微调任务在融入了新微调训练数据之后又需要重新训练和重新测试。vllm推出了一个很棒的功能,可以分别加载base模型和lora层,并且可以加载多个lora层,通过指定lora层名字确定到底调用哪一个。这种特性是非常有价值的:同时加载N套微调参数,这样做不会影响大模型原有能力,通过选择微调层可以提供给用户不同的专项微调能力,而且可以实现权限管控,防止敏感信息泄露,此外更多新微调能力的接入也非常方便。可以说,vllm这项设计将使得它显著胜出其他不具备这种能力的LLM加速推理框架。

下面给出一个openshift上部署vllm 单基座多lora的例子

kind: Deployment
apiVersion: apps/v1
metadata:
  name: YOUR-APP-NAME
  namespace: YOU-NAMESPACE
spec:
  replicas: 0
  selector:
    matchLabels:
      app: YOUR-APP-NAME
  template:
    metadata:
      creationTimestamp: null
      labels:
        app: YOUR-APP-NAME
    spec:
      restartPolicy: Always
      schedulerName: default-scheduler
      terminationGracePeriodSeconds: 30
      nodeName: YOUR-COMPUTE-NODE
      securityContext:
        runAsUser: 0
      c
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值