MLC LLM

submodules in MLC LLM
大模型(LLM)好性能通用部署方案,陈天奇(tvm发起者)团队开发.
项目链接
docs: https://llm.mlc.ai/docs/
github: https://github.com/mlc-ai/mlc-llm
支持的平台和硬件

platforms & hardware
支持的模型
|
Architecture
|
Prebuilt Model Variants
|
| — | — |
|
Llama
|
Llama-2, Code Llama, Vicuna, WizardLM, WizardMath, OpenOrca Platypus2, FlagAlpha Llama-2 Chinese, georgesung Llama-2 Uncensored
|
|
GPT-NeoX
|
RedPajama
|
|
GPT-J
|
|
|
RWKV
|
RWKV-raven
|
|
MiniGPT
|
|
|
GPTBigCode
|
WizardCoder
|
|
ChatGLM
|
|
|
ChatGLM
|
|
接口API 支持
Javascript API, Rest API, C++ API, Python API, Swift API for iOS app, Java API & Android App
量化(Quantization) 方法支持
4-bit, LUT-GEMM, GPTQ
ref: https://llm.mlc.ai/docs/compilation/configure_quantization.html
其他
最大的特点是可以快速部署大模型到iOS 和 Android 设备上, 浏览器上运行文生图模型(sd1.5/2.1)和大模型, 推理框架基于tvm-unity.
vLLM
快速简单易用的大模型推理框架和服务,来自加州大学伯克利分校
vLLm 运行大模型非常快主要使用以下方法实现的:
-
先进的服务吞吐量
-
通过PageAttention 对attention key & value 内存进行有效的管理
-
对于输入请求的连续批处理
-
高度优化的CUDA kernels
项目链接


最低0.47元/天 解锁文章
1517

被折叠的 条评论
为什么被折叠?



