文章目录
简单看下DeepSeek满血版配置
硬件环境如下:
- CPU : Intel Xeon Platinum 8480 (112核) = 3w
- 内存:512G+ (三星64G*16) = 2.3w
- GPU:8 * A100 (80G) = 15.5w*8 = 124w
软件环境如下:
- 操作系统:ubuntu 20.04
- PyTorch:2.6.0
- CUDA:12.2
- ollama:最新版本
网络环境如下:
- 网络带宽 :10Gbps
本地部署的知识库,对于企业的意义最大,对于个人而言,也是一个能力放大器,也可以将个人能力无限放大。
企业是不可能容忍自己的资料上传到网络的。
RAG是什么?
RAG 是 Retrieval-Augmented Generation(检索增强生成)的缩写,是一种结合了信息检索和文本生成技术的AI方法。它在自然语言处理(NLP)领域中广泛应用,特别是在需要从大量数据中提取知识并生成准确、自然回答的场景下。
能将用户提问结合一个个性化的知识库,整合起来生成答案给到用户。
本地知识库可以在企业运营中慢慢磨合,不断精修数据库,让大模型和本企业契合度越来越高。再加上部署多个大模型,形成多模态agent智能体,让用户得到错误答案的概率进一步减小。这将是未来个人和企业的最优方案。
RAG 的核心原理
- 检索(Retrieval):
- 在外部知识库(如数据库、文档、向量数据库)中搜索相关信息。
- 例如,搜索公司内部文档、学术论文、网页内容等。
- 增强(Augmented):
- 将检索到的内容与用户输入 合并,提供上下文。
- 生成(Generation):
- 让 LLM 基于检索到的信息 生成回答,而不是完全依赖内部知识。
这使得 LLM 能处理超出训练数据的最新信息,避免幻觉(hallucination)。
RAG的局限性
- 检索质量依赖:如果检索器返回无关或错误的上下文,生成结果可能不准确。
- 计算成本:检索和生成两步过程比纯生成模型更耗资源。
- 知识库限制:回答质量受限于知识库的覆盖范围和内容的可靠性。
RAG 技术栈
向量数据库(用于存储和检索文档):
- FAISS(Facebook AI)
- Pinecone
- Weaviate