企业里有没有 AI?有。有没有好用的?不多。
原因往往不是模型不行,而是——企业自己的知识藏在角落,AI根本不知道去哪找。
今天我们要写一份清晰、有趣、有架构图的实践指南:怎么从一堆 PDF、Word、系统 FAQ 里,搞出一个能回答“咱公司流程”的 AI 工具?从最原始的文档库开始,一步步打造出企业级的 RAG 问答系统。
💡 企业问答系统的核心问题是「上下文缺失」
OpenAI 再聪明,它也不知道你公司请假怎么批、系统数据从哪拉、OA 系统进哪个菜单。
你问:“采购订单超过 5000 块怎么走审批?”
GPT:“这取决于公司政策。”
——这时候你是不是想摔电脑?
所以 核心问题不是模型不会答,而是它没上下文。
企业知识掌握在文档、流程图、FAQ、系统页面里,如果你不给模型这些内容,它当然只能打太极。
🧠 解决方案:RAG 架构 + 向量库,让模型“读你公司资料”
RAG(Retrieval-Augmented Generation)是目前构建企业知识问答最主流的范式,它的基本思路是:
你问问题 → 系统从知识库中找出最相关内容 → 模型带着这些上下文一起生成回答。
这个过程,核心组件就是“向量检索”。
🛠️ 架构图来了,一图读懂企业问答系统
flowchart TD
A[用户提问] --> B[Query 预处理]
B --> C[向量检索(相似度搜索)]
C --> D[返回相关文档片段]
D --> E[构建 Prompt + 上下文]
E --> F[调用大模型生成回答]
F --> G[回答展示 + 引用标注]
👉 技术栈可以选:
-
向量库:FAISS、Milvus、Weaviate、PGVector
-
模型服务:OpenAI、DeepSeek、月之暗、通义千问、Qwen
-
中间服务层:LangChain、LlamaIndex、Haystack(推荐用 LlamaIndex 来组织 RAG 逻辑)
🧱 Step by Step:构建企业知识问答系统的六个步骤
① 文档收集与预处理
-
来源:制度文档、培训材料、系统说明书、Word、PDF、网页、Markdown
-
工具推荐:
-
unstructured
:多格式文档拆分器 -
pdfplumber
:处理 PDF 更稳定 -
langchain.document_loaders
:支持 docx/html/pdf/Notion 等加载器
-
👉 输出目标是:一段段干净的文本块,比如每 200~500 字一段。
② 嵌入向量化
你要给每段文本“生成一个向量”,让机器能通过相似度快速查找相关内容。
-
模型推荐:
-
bge-large-zh
:中文业务文档最强之一(开源) -
text-embedding-3-large
:OpenAI 提供的通用嵌入模型
-
-
工具链:
-
sentence-transformers
(for BGE) -
openai.Embedding
(if using GPT)
-
👉 保存向量+原文内容,写入向量库。
③ 构建向量库
-
开发快速上手建议:
-
PoC 级:用
FAISS
本地就够; -
上云或多服务集成:用
Milvus
+ REST API; -
想省事:
ChromaDB
/Weaviate
/Qdrant
-
保存结构建议:
{
"id": "doc-3456-para-3",
"text": "请假超过三天须提前提交审批流程…",
"metadata": {
"source": "员工手册v2.pdf",
"page": 12,
"title": "请假制度"
},
"embedding": [0.0123, 0.3423, ..., 0.2231]
}
④ 检索与 Prompt 构建
用户提问后:
-
先用相同的 Embedding 模型对问题向量化;
-
然后在向量库中查找最相关的 3~5 段文档内容;
-
拼接 Prompt 给大模型使用,例如:
你是一名熟悉公司制度的智能助手。以下是企业内部文档中的参考资料:
1. [员工手册] 请假超过3天需填写审批表,审批人包括部门主管和HR负责人…
2. [操作规程] 请假需提前2天在系统中提交…
请基于这些资料回答:如果我临时生病请假3天,流程该怎么走?
⑤ 模型调用与回答生成
可选模型平台:
-
🔧 本地化:部署 DeepSeek-v2、Yi-34B、Qwen1.5
-
☁️ 云平台:OpenAI GPT-4、通义千问、Azure OpenAI
-
🧠 加上 MCP 结构,可以逐步支持 Agent 化流程(下一篇我再写)
⑥ 前端与使用体验
-
可以部署为:Web 应用 / 企业微信机器人 / 钉钉插件
-
引用展示建议:
-
在回答底部标注“资料来自《员工手册》第12页”
-
支持点击跳转到原文(建立用户信任)
-
🧪 Bonus:企业问答的注意事项(经验总结)
-
不要直接全文送给模型:成本高、效果差、容易“跑题”
-
拆分文本别太碎:碎太小,检索失效;太大,难对齐问题
-
最好做“文档可视化检索”:能看见引用来源,不做黑盒
-
提前定义文档来源标签与权限:防止员工看到不该看的
-
设立反馈机制:用户点“回答错误”可标记+回溯内容片段
🧭 总结:你的企业可以拥有一个自己的“小GPT”
当你把公司知识变成“模型可读的结构化片段”,再加上 RAG 和向量搜索,大模型就真的能回答:
-
“报销发票超过多少金额要盖章?”
-
“行政审批表在哪下载?”
-
“年假能不能跨年?”
这个时候,它就不再是个“问天气”的玩具,而是你的内部专家型数字员工。