纯本地AI知识库应用智能体怎么搭？你搞懂这些模型术语了吗？-优快云博客

前言

近一年来，开源大模型快速演进，个人用户也能搭建属于自己的本地问答系统（RAG）。工具五花八门，每一个都声称一键部署，但你点进去后，往往看到一堆让人头大的名词：

Qwen1.5-7B-Q4_K_M-GGUF？
bge-m3-int4-awq？
reranker？embedding？gguf？fp8？？

别急，这篇文章不讲操作步骤，只做一件事，通俗解释这些你即将遇到的关键术语。理解它们，是你真正开始纯本地RAG的第一步。

搭建 RAG 系统，背后是三个模型在配合

想让AI读懂你提问、从知识中找出正确内容并用自然语言回答，它需要靠三类模型通力合作。

Pasted image 20250804185644.png

大语言模型（LLM）：负责说人话

你看到的回答，其实是大语言模型生成的。它根据问题和检索到的内容，用自然语言组织回答。

Note

代表模型：
Qwen、Gemma、DeepSeek等

向量模型（Embedding Model）：负责找内容

它把问题和知识库中的文本都变成向量（可以理解成数字表示的意思），然后通过向量比对来找意思最接近的内容。

Note

代表模型：
bge-m3、Qwen3-Embedding等

重排模型（Reranker）：负责挑好内容

向量模型找出的内容可能有点乱，有些相关、有些不相关。重排模型会对它们重新打分排序，把最靠谱的排在前面。

Note

代表模型：
bge-reranker-v2-m3、Qwen3-Reranker 等

你在部署工具里看到的术语都是什么？

Pasted image 20250804185848.png

部署这些模型时，无论你使用哪款工具，都会遇到一堆术语和格式选项。

以下是最常见术语的解释清单。

1. 模型格式（model format）

格式名	简单理解	常见在哪些工具
GGUF	新一代轻量格式，支持量化，适合本地运行	Ollama、LMStudio、llama.cpp
safetensors	安全模型格式，主流模型默认格式	vLLM、Xinference
pytorch	训练用格式，历史悠久	Transformers、vLLM
awq	近年热门的新格式，兼容 GPU 加速部署	vLLM、OpenVINO

没显卡？优先 GGUF
用 GPU 工具？选 safetensors、awq 格式兼容更好

2. 模型量化（quantization）

量化是把原始模型压缩一下，让它更省资源运行。常见标识包括：

量化方式	占用资源	精度	适合谁
Q4_K_M	很低	一般	普通电脑 / CPU 部署
Q5_1	中等	较好	中低端 GPU 用户
Q8_0	高	很好	高端 GPU 用户（显存 ≥16G）
FP16/FP8	很高	极佳	高性能 GPU（24G+）
int4 / int8	低	一般	嵌入式或极限压缩场景
awq	中高	高	GPU 加速专用量化技术

没显卡选 Q4_K_M
显卡 8G 以上可选 Q5_1、Q6_K、awq
大显卡（24G+）可以考虑 FP16 模型

3. 模型大小（参数规模）

写法	含义	对应需求
1B	10亿参数，轻量模型	快速测试、嵌入式
7B	70亿参数，主流中文模型大小	本地问答足够使用
13B	更大，更精确，需要更强硬件	高质量问答、复杂逻辑
70B	超大模型（如 LLaMA 2/3 70B）	仅适合云端或大显卡使用

4. 推理引擎（engine）

这是让模型跑起来的技术引擎，不同引擎兼容的格式、运行效率、硬件要求不同。

Pasted image 20250804190055.png

引擎名	特点	支持平台
llama.cpp	可跑在 CPU 上，轻量，支持 GGUF	Ollama、LMStudio、Xinferenc
transformers	最通用但偏慢	Xinference
vllm	专为 GPU 高并发设计，吞吐极高	vLLM、Xinference
SGLang	不仅是推理引擎，更内嵌 DSL	Xinference

5. 模型类型：LLM？Embedding？Reranker？

这个在部署时常见字段是 model_type 或工具中的模型用途之类的。

类型	作用	代表模型
LLM	最终生成回答	Qwen、Gemma
Embedding	将文本转为向量以便检索	bge-m3、Qwen3-Embedding
Reranker	重排序提高答案相关性	bge-reranker、Qwen3-Reranker

Pasted image 20250804190242.png

6. 其他关键词

术语	通俗解释
context window	模型能一次读进去的最大文本量
token	模型处理的语言单位，一个词 ≈ 1～3 token
system prompt	控制模型性格和输出的隐藏提示语

搞懂术语，是本地部署AI的入门门槛

无论你用哪款工具部署RAG系统，都会面临这些术语。搞懂它们，不用全懂原理，你也能：

看懂模型名后缀的含义
判断模型能不能跑在你设备上
了解部署工具支持了什么模型
为后续部署选型打下基础

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。