列举开源的模型和推理框架

最新推荐文章于 2025-06-28 18:17:09 发布

原创最新推荐文章于 2025-06-28 18:17:09 发布 · 1.3k 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

大模型专栏收录该内容

17 篇文章

订阅专栏

当然可以！下面是一个系统性的列表，按 开源大模型（LLM） 和 推理框架 两大类列出，并配上简要说明。

🧠 一、开源大语言模型（LLMs）

名称	发布者	语言能力	模型大小	特点
LLaMA 2 / 3	Meta	英文强，少量多语	7B/13B/70B	非商业使用需申请；社区生态广泛
Qwen / Qwen1.5	阿里云通义千问	中文强，兼顾英文	0.5B ~ 72B	中文能力极强，Qwen1.5 开源，支持多模态
Baichuan 2	百川智能	中文优化	7B / 13B	商业/研究可用，API 接口友好
InternLM / InternLM2	商汤 + 上交	中文优，推理快	7B / 20B	InternLM2 引入 MoE，推理效率高
Yi	01.AI（王慧文）	中文 + 英文	6B / 34B	Yi-34B 是当前顶级中文模型之一
Mistral / Mixtral	Mistral.ai（法国）	英语主导	7B / 12.9B (MoE)	极高性价比，推理快，非常热门
Gemma	Google	英语强	2B / 7B	使用 Apache 2 许可，研究友好
Phi-2 / Phi-3	微软	小模型	2.7B / 4.2B	教育、推理快，适合嵌入式
OpenChat / ChatGLM3	OpenBMB / 智谱AI	中文对话优化	6B / 32B	ChatGLM 系列开源生态良好

⚙️ 二、主流开源推理框架（Inference Engines）

名称	语言/实现	支持硬件	特点
vLLM	Python / CUDA / Triton	GPU（A10、A100、4090 等）	高并发低延迟，生产级部署首选
llama.cpp	C++	CPU / Apple M 系列 / GPU	轻量、支持量化 `.gguf` 格式，能跑在树莓派上
Ollama	Rust / C++ 封装	CPU / M 系列 GPU	llama.cpp 的高级封装，一行命令启动
TGI (Text Generation Inference)	HuggingFace	GPU	Transformers 官方部署工具，支持 Batching、CUDA
FasterTransformer	NVIDIA	GPU	强调 Transformer 高效并行，支持 INT8/FP16
TensorRT-LLM	NVIDIA	GPU (A100/H100)	超高性能推理，适合部署 LLaMA-3 等模型
MLC LLM	TVM 项目	CPU / GPU / iOS / Android	编译到浏览器、iPhone、本地设备
DeepSpeed-MII	Microsoft	GPU	深度优化并行推理（基于 DeepSpeed）
Exllama / Exllamav2	C++/CUDA	GPU	适用于量化模型（4-bit 推理超快）
ctransformers	Python 绑定 llama.cpp	CPU / GPU	在 Python 中直接跑 gguf 模型，适合小项目

📌 补充：工具生态

工具	用途
transformers	HuggingFace 模型加载和训练工具
AutoGPTQ	GPTQ 量化工具，适配 vLLM、Transformers
text-generation-webui	WebUI 管理/测试各种本地模型（支持 gguf / HF 模型）
LMDeploy	商汤开发的 LLM 部署工具，支持 InternLM 系列
LangChain / LlamaIndex	构建基于 LLM 的 RAG 检索系统

✅ 你可以根据用途选择：

你要做什么？	推荐模型 + 推理框架
本地跑中文对话	Qwen1.5 + Ollama / llama.cpp
服务器部署并发服务	LLaMA3/Qwen + vLLM
快速试验不同模型	text-generation-webui + GGUF 模型
移动端部署	MLC LLM + Phi-2 / Tiny LLM
精准控制上下文 / Token 利用率	vLLM（PagedAttention 优化）

如果你告诉我你电脑或服务器的配置（CPU/GPU/内存），我可以给你推荐最适合你机器的模型+框架组合。是否需要？

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

时空无限 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。