文章摘要
近期有很多用户询问如何基于 Cloud Studio DeepSeek-R1 模板搭建私有知识库,用于个人上传私有数据进行增强检索、实现 AI 赋能业务升级。但网上的动手教程对于非 IT 人员来讲门槛较高,令粉丝们望而却步。
今天,CloudStudio 在 DeepSeek-R1 CPU 模板中已内置知识库,支持 Open WebUI 和 AnythingLLM 两种模式,无需动手搭建,开箱即可拥有属于自己的私有知识库。
一、什么是知识库?
知识库(Knowledge Base)是一个存储和管理知识的系统,通常包含结构化和非结构化的信息,用于帮助用户或系统快速查找和获取相关知识。
你可以把它想象成一个“知识仓库”,里面存放着各种有用的信息,比如文档、常见问题解答(FAQ)、数据库、规则、案例等。
举个栗子:
假设你是一名技术客服人员,客户问你一个关于某个产品的问题。
如果你有一个完善的知识库,你可以直接在知识库中搜索相关产品的使用说明或常见问题解答,快速找到答案并回复客户。
如果没有知识库,你可能需要去问同事或查找一堆文档,效率会低很多。
二、为什么要搭建个人知识库?
搭建个人知识库不仅能提升工作效率,还能促进持续学习和团队协作,对个人职业发展和团队知识管理具有长远意义。
1. 知识系统化
集中管理:将零散的知识点整合到一个平台,便于查找和使用。
结构化存储:通过分类和标签,使知识更易管理和检索。
2. 提升效率
快速检索:通过搜索功能迅速找到所需信息,减少重复查找时间。
减少重复劳动:避免重复解决相同问题,提升工作效率。
3. 持续学习
积累经验:记录问题和解决方案,形成个人经验库。
知识更新:持续更新知识库,保持技术前沿。
4. 团队协作
知识共享:团队成员可访问知识库,促进经验交流。
减少沟通成本:常见问题和解决方案在知识库中共享,减少重复沟通。
如果想要搭建知识库,这里我们又不得不提到另外一个词—— RAG 。
三、什么是 RAG
RAG(Retrieval Augmented Generation,检索增强生成)是一种让大语言模型(LLM)变得更聪明的方法。
简单来说,它通过给模型提供一个外部的“知识库”,让模型在回答问题时可以“查资料”,从而给出更准确、更相关的答案。
举个栗子:
想象一下,大模型就像一个学生,而 RAG 系统就是一本字典。
当学生遇到不懂的问题时,他可以翻开字典查找相关的解释,然后再根据字典里的内容回答问题。
这样,学生不仅能回答得更准确,还能避免“瞎编”答案。
那么,当大模型遇到不懂的问题时,他也可以查字典,也就是 RAG 系统。
四、有了大模型,为什么还需要 RAG ?
1. 大模型的知识有限:大模型的知识主要来自它训练时用的数据,而这些数据是有限的,尤其是企业内部的业务知识或产品信息,模型可能完全不了解。
2. 微调成本高:如果想让大模型学习企业特定的知识,通常需要微调模型,但这不仅成本高,而且效果也不一定好。
3. 幻觉问题:大模型在不熟悉的领域可能会“瞎编”答案,这在企业应用中是不可接受的,尤其是那些需要准确信息的场景。
这里,我先贴出一个 RAG 的运作流程图。
好了,废话不多说,接下来就带大家具体实操了。
五、如何在 Cloud Studio 的 DeepSeek 模板中搭建和使用自己的知识库
步骤1 :进入 Cloud Studio DeepSeek CPU 模板,唤起内置Open-WebUI 或 AnythingLLM 组件
进入网站:https://ide.cloud.tencent.com/dashboard/
点击任意 DeepSeek CPU模板进入工作空间, 唤起 Open-WebUI 或 AnythingLLM, 即刻拥有完全属于个人的知识库。
相对于本地搭建 RAG 知识库,体验门槛直线降低!
默认唤起 AnythingLLM ( 4001 端口)
在【端口】处也可唤起 Open-WebUI
Open-WebUI 初次使用需要注册账户
步骤 2.1:AnythingLLM 构建知识库
- 新建【工作区】
- 上传本地文档并载入工作区(同时也支持网页链接设置)
- 关掉工作区设置界面即可开启对话
步骤2.2: Open-WebUI 构建知识库
前期设置:点击左下角用户 ICON 【设置】 -【 管理员设置】 -【 文档】 -【 设置模型引擎】
将【语义向量模型引擎】处改为 Ollama ,【语义向量模型】处输入该模板支持的任意规格 deepseek-r1 模型,点击【保存】。
进入左侧【工作空间】,点击【知识库】,点击右侧“+”,即可创建知识库。
上传本地文件或将本地文件拖入行业报告
返回对话窗口,在输入框输入“#”,选择知识库后即可进行对话
最后,我们来看看
以 AnythingLLM 为例,基于我们传入的《微短剧行业深度分析报告》文件,得到的对话答案能够较为精准地提权。
Open WebUI 的输出效果也符合预期,提权精准。