使用 硅基流动+Doris+DeepSeek搭建RAG知识库(保姆级教程)

使用用硅基流动+Doris+DeepSeek搭建RAG知识库(保姆级教程)

什么是RAG?

检索增强生成(Retrieval-Augmented Generation)是一种将知识库检索与大语言模型生成相结合的技术架构。

通过Doris实时检索业务知识,DeepSeek进行语义理解,硅基流动提供弹性算力,实现以下优势:

  1. 解决大模型知识时效性瓶颈(如DeepSeek默认知识截止至2024年7月)
  2. 突破企业私有数据壁垒(支持导入内部文档、代码库等非公开资料)
  3. 降低幻觉现象(回答基于检索到的权威内容)

硅基流动

硅基流动是专为AI应用设计的弹性算力平台,提供:

  1. 多模态模型API调用(支持嵌入式部署)
  2. 分布式GPU资源调度
  3. 企业级数据隐私保护
  4. 动态流量负载均衡(应对突发高并发场景)

硅基流动官网 提供2000万免费Token及华为云昇腾算力支持,显著降低企业AI落地成本.
硅基流动 注册即赠送14元额度,约2000万免费Token,方便测试。

二、环境搭建(手把手教学)

Doris集群部署

硬件配置推荐

生产环境最低配置(三节点集群示例)

# 生产环境最低配置(三节点集群示例)
节点类型 | CPU  | 内存  | 磁盘  
---------------------------------
FE       | 8| 16GB | 200GB SSD  
BE       | 16| 64GB | 2TB NVMe 

快速安装流程

#使用Docker部署(开发测试环境)
git clone https://github.com/apache/doris  
cd doris/docker 
./build.sh  --tag latest --build-arg FROM=ubuntu:18.04 
./run.sh  --image apache/doris:latest 

关键配置调优

-- 创建知识库专用数据库 
CREATE DATABASE rag_db;
-- 建表语句(支持向量检索)
CREATE TABLE doc_store (
    id BIGINT,
    content TEXT,
    embedding ARRAY<FLOAT>,
    file_path VARCHAR(255)
) ENGINE=olap 
DUPLICATE KEY(id)
PARTITION BY RANGE(id)()
DISTRIBUTED BY HASH(id) BUCKETS 10;

2.2 Python环境准备

# 创建虚拟环境 
conda create -n rag python=3.8 
conda activate rag 
 
# 安装核心依赖库
pip install pymysql sqlalchemy markdown numpy 
pip install siliconflow-sdk --extra-index-url https://pypi.siliconflow.com  

知识库构建实战

Markdown文档处理

import os 
from markdown import markdown 
 
def process_markdown(folder_path):
    docs = []
    for root, _, files in os.walk(folder_path): 
        for file in files:
            if file.endswith(".md"): 
                path = os.path.join(root,  file)
                with open(path, 'r') as f:
                    html = markdown(f.read()) 
                    docs.append({
   
    
                        'content': html,
                        'path': path 
                    })
    return docs 

数据入库Doris

from sqlalchemy import create_engine 
 
def load_to_doris(docs):
    engine = create_engine('mysql+pymysql://user:pass@fe_host:9030/rag_db')
    
    for
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zxg45

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值