深度学习-在线推断(Inference)技术

    深度学习一般分为训练和在线推断两个部分,大家平时经常关注的多为训练阶段,也就是搜索和求解模型最优参数的阶段。而当模型参数已经求解出来,如何使用模型,以及在在线环境中部署模型,也是非常重要的。

    一般会比较关注其中的一些技术点:

  •     访问延迟
  •     吞吐量
  •     模型版本管理
  •     DevOps


   大公司较为倾向自己造轮子,而小公司更倾向于用开源方案。

    1 软件层:

    1.1 Tensorflow Serving:

TensorFlow Serving 是一个用于机器学习模型 serving 的高性能开源库。它可以将训练好的机器学习模型部署到线上,使用 gRPC 作为接口接受外部调用。更加让人眼前一亮的是,它支持模型热更新与自动模型版本管理。这意味着一旦部署 TensorFlow Serving 后,你再也不需要为线上服务操心,只需要关心你的线下模型训练。

    1.2 Nginx等服务软件。

    1.3 或采用自研Model Serving服务器。

    2 硬件层:

    CPU方案:较为常用方式。

    GPU方案:英伟达也推出了适合在线推断场景的GPU型号。

    FPGA方案:一些公有云厂商尝试尝试退出FPGA在线推断的云服务ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值