大模型(LLM)推理体系全览

MLC LLM


submodules in MLC LLM

大模型(LLM)好性能通用部署方案,陈天奇(tvm发起者)团队开发.

项目链接

docs: https://llm.mlc.ai/docs/

github: https://github.com/mlc-ai/mlc-llm
在这里插入图片描述

支持的平台和硬件

platforms & hardware

支持的模型

|
Architecture

|

Prebuilt Model Variants

|
| — | — |
|

Llama

|

Llama-2, Code Llama, Vicuna, WizardLM, WizardMath, OpenOrca Platypus2, FlagAlpha Llama-2 Chinese, georgesung Llama-2 Uncensored

|
|

GPT-NeoX

|

RedPajama

|
|

GPT-J

|
|
|

RWKV

|

RWKV-raven

|
|

MiniGPT

|
|
|

GPTBigCode

|

WizardCoder

|
|

ChatGLM

|
|
|

ChatGLM

|
|

接口API 支持

Javascript API, Rest API, C++ API, Python API, Swift API for iOS app, Java API & Android App

量化(Quantization) 方法支持

4-bit, LUT-GEMM, GPTQ

ref: https://llm.mlc.ai/docs/compilation/configure_quantization.html

其他

最大的特点是可以快速部署大模型到iOS 和 Android 设备上, 浏览器上运行文生图模型(sd1.5/2.1)和大模型, 推理框架基于tvm-unity.

vLLM


快速简单易用的大模型推理框架和服务,来自加州大学伯克利分校

vLLm 运行大模型非常快主要使用以下方法实现的:

  1. 先进的服务吞吐量

  2. 通过PageAttention 对attention key & value 内存进行有效的管理

  3. 对于输入请求的连续批处理

  4. 高度优化的CUDA kernels

项目链接

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值