DeepSeek+dify知识库,查询数据库的两种方式(api+直连)非常详细,从零基础到精通,收藏这篇就够了!

一直有小伙伴介绍在问我,怎么让在个ai应用客户端直接连接数据库查询。dify官方没有现成的组件可以直接用。

当时我想的是两种方式,一种是基于代码执行模块直接查询数据库,一种是基于Http请求,调用自己封装接口来查询数据库。

基于接口执行数据库查询

想干这事之前先梳理下流程img

  • 用户输入问题,根据用户的问题提出关键词
  • 通过http调用外部服务接口,根据关键词查询数据库
  • 返回200,调用大模型,将用户问题和知识进行梳理
  • 返回其他,直接输出
本地准备

要求:

  • 有一个python环境
  • 安装pymysq和flask 组件python -m pip install pymysql flask
  • 有一个mysql,或其他的数据库,我有mysql直接用了
接口开发

让kimi给我生成一个文章表,并且插入10条数据,我们可以告诉kimi,文章长度多大,这样内容可以丰富些。img直接让kimi生成一个暴露接口查数据库的服务,有简单的优化了下,将下面的内容放入到server.py文件中

from flask import Flask, request, jsonify
import pymysql

app = Flask(__name__)

# 数据库配置
DATABASE_CONFIG = {
    'host': '', # 自己的数据库地址
    'user': '', # 自己数据库的账户
    'password': '', #自己数据库的密码
    'db': 'demo', # 自己数据库的库名
    'charset': 'utf8mb4',
    'cursorclass': pymysql.cursors.DictCursor
}

@app.route('/query', methods=['POST'])
def query_database():
    print("接收到请求")
    # 获取关键字
    keyword = request.json.get('keyword')
    print("keyword为:"+keyword)
    ifnot keyword:
        return jsonify({"error": "Keyword is required"}), 400
    
    # 参数化查询,避免 SQL 注入,修改成自己的库
    query = "SELECT * FROM articles WHERE content LIKE %s"
    params = ('%' + keyword + '%',)
    
    try:
        # 建立数据库连接
        connection = pymysql.connect(**DATABASE_CONFIG)
        with connection.cursor() as cursor:
            # 执行查询
            cursor.execute(query, params)
            result = cursor.fetchall()
        
        connection.commit()
        connection.close()

        ifnot result:
            return"未查询到有效数据", 400
        
        # 生成 Markdown 表格
        markdown_table = generate_markdown_table(result)
        
        return markdown_table, 200
    
    except Exception as e:
        return str(e), 500

def generate_markdown_table(results):
    """ 生成 Markdown 表格 """
    ifnot results:
        return""
    # 获取列名
    columns = results[0].keys()
    
    # 表头
    table_md = "| " + " | ".join([col for col in columns]) + " |\n"
    # 分隔线
    table_md += "| " + " --- |" * len(columns) + "\n"
    
    # 表格内容
    for row in results:
        table_md += "| " + " | ".join([str(cell) for cell in row.values()]) + " |\n"
    
    return table_md

if __name__ == '__main__':
    # 注意这里绑定本机的内容ip,省事点,就0.0.0.0即可。不要绑定127.0.0.1,docke内访问不到
    app.run(host='10.1.0.65', port=8000)

启动服务

 python .\server.py

配置工作流

img创建一个空白应用。img在开始节点添加一个输入字段context

img

添加一个LLM,把开始节点设置的context字段作为上下文传入,并设置提示词提取关键词。

img添加一个http请求节点,把我们在接口开发里的地址和接口名填写进去2,然后把大模型的输出作为关键词填写到请求body里3,我们关闭重试机制4

这里要注意下:json的引号是中文的,最好在外面写好校验过了再放进去。img在HTTP请求的输出变量里,我们只关注status_code 响应状态码和响应内容即可。

img添加一个条件分支1,然后设置HTTP响应码为200的时候,连接到大模型。其他直接结束。

img添加大模型,将HTTP请求的响应体作为上下文给大模型,输入提示词,让大模型根据知识,验证,并进行合理性的验证,最后结构化返回。

img在结束节点中,我们把大模型整理的内容输出。

img试运行效果。

基于代码执行查询数据库

img

由于difysandbox的安全限制

  • 不能访问文件系统
  • 不能进行网络请求
  • 不能执行操作系统级命令

官方也有了对应的说明,见文档。 https://github.com/langgenius/dify-sandbox/blob/main/FAQ.mdss

img

  • 官方已经告诉我们沙箱里添加了哪些权限
  • 如果我们要添加可以在哪里添加
difysandbox源码修改
一定要使用linux环境`、`一定要使用linux环境``一定要使用linux环境

我从github上拉下代码以后,搜索``syscalls_amd64.go

img一共有4个文件,

  • nodejs的系统调用,有amd和arm平台
  • python的系统,也是有amd和arm平台

我用python,不是arm架构的,镜像都是linux的。

我们直接问kimi即可。

imgps:这个问题丢给了ds和chatgpt都是瞎回答

img一步步的问kimi,最后告诉我要添加哪些。整理以后添加到代码里。

var ALLOW_SYSCALLS = []int{  
    // file io  
    syscall.SYS_NEWFSTATAT, syscall.SYS_IOCTL, syscall.SYS_LSEEK, syscall.SYS_GETDENTS64,  
    syscall.SYS_WRITE, syscall.SYS_CLOSE, syscall.SYS_OPENAT, syscall.SYS_READ,  
    // thread  
    syscall.SYS_FUTEX,  
    // memory  
    syscall.SYS_MMAP, syscall.SYS_BRK, syscall.SYS_MPROTECT, syscall.SYS_MUNMAP, syscall.SYS_RT_SIGRETURN,  
    syscall.SYS_MREMAP,  

    // user/group  
    syscall.SYS_SETUID, syscall.SYS_SETGID, syscall.SYS_GETUID,  
    // process  
    syscall.SYS_GETPID, syscall.SYS_GETPPID, syscall.SYS_GETTID,  
    syscall.SYS_EXIT, syscall.SYS_EXIT_GROUP,  
    syscall.SYS_TGKILL, syscall.SYS_RT_SIGACTION, syscall.SYS_IOCTL,  
    syscall.SYS_SCHED_YIELD,  
    syscall.SYS_SET_ROBUST_LIST, syscall.SYS_GET_ROBUST_LIST, SYS_RSEQ,  

    // time  
    syscall.SYS_CLOCK_GETTIME, syscall.SYS_GETTIMEOFDAY, syscall.SYS_NANOSLEEP,  
    syscall.SYS_EPOLL_CREATE1,  
    syscall.SYS_EPOLL_CTL, syscall.SYS_CLOCK_NANOSLEEP, syscall.SYS_PSELECT6,  
    syscall.SYS_TIME,  

    syscall.SYS_RT_SIGPROCMASK, syscall.SYS_SIGALTSTACK, SYS_GETRANDOM,  
    //新增  
    5, 6, 7, 21, 41, 42, 44, 45, 51, 54, 55, 107, 137, 204, 281,  
}

预装mysql操作包

既然我们要操作在沙箱里操作mysql,那我们得在对应的环境中预装下mysql客户端。

img1对应的文件中添加2对应的pymysql==1.1.1,我直接安装最新版。

在readme中有操作步骤

### Steps

1. Clone the repository using `git clone https://github.com/langgenius/dify-sandbox` and navigate to the project directory.
2. Run ./install.sh to install the necessary dependencies.
3. Run ./build/build_[amd64|arm64].sh to build the sandbox binary.
4. Run ./main to start the server.

编译成功以后,打包镜像。因为我没有环境,直接模拟了下创建了一个main和env目录

img

然后模拟打包镜像。在根目录中执行下面的命令

docker build -f docker/amd64/dockerfile -t dify-sandbox:local .

我在win上打包报了一堆错,都扔给kimi,一步步的解决。最后成功。

img

沙箱网咯策略配置

在我们的安装dify的的时候,有个dify/docker/ssrf_proxy目录,找到squid.conf.template

img

在这里,你可以设置允许访问的网络,允许访问的端口,生产一定要最小权限

acl devnet src 10.1.0.0/24
acl devnet src 10.255.200.0/24

acl Safe_ports port 3306        # MySQL
acl Safe_ports port 5432        # Postgres
acl Safe_ports port 27017       # MongoDB
acl Safe_ports port 6379        # Redis

http_access allow devnet

  • devnet 为定义的规则集名称,后面跟自己的ip段设置,表示:10.255.200.110.255.200.254-acl Safe_ports port 允许访问的端口
  • http_access allow devnet 允许访问的规则集
重新部署dify

在dify的的docker目录中修改docker-compose.yaml文件sandbox使用本地镜像。

  sandbox:
    #image: langgenius/dify-sandbox:0.2.10
    image: dify-sandbox:local
    restart: always
    environment:

imagelanggenius/dify-sandbox:0.2.10 改为了dify-sandbox:local

在docker目录下执行以下命令

# 销毁
docker compose down
# 重新部署
docker compose up -d

脚本

使用kimi生成了一个python代码

import sys
import pymysql
import os

def connect_to_database():
    """ 连接到数据库,配置都从环境变量里取 """
    try:
        # 从环境变量或配置文件中获取数据库参数
        host = os.getenv("DB_HOST", "localhost")
        user = os.getenv("DB_USER", "root")
        password = os.getenv("DB_PASSWORD", "password")
        database = os.getenv("DB_NAME", "database_name")
        
        conn = pymysql.connect(
            host=host,
            user=user,
            password=password,
            database=database,
            charset='utf8mb4',
            cursorclass=pymysql.cursors.DictCursor  # 使用字典游标
        )
        return conn
    except pymysql.MySQLError as err:
        print(f"Error connecting to database: {err}")
        returnNone

def execute_query(conn, query, params=None):
    """ 执行 SQL 查询,并支持参数化查询 """
    cursor = conn.cursor()
    try:
        if params:
            cursor.execute(query, params)
        else:
            cursor.execute(query)
        return cursor.fetchall()
    except pymysql.MySQLError as err:
        print(f"Error executing query: {err}")
        returnNone
    finally:
        cursor.close()

def generate_markdown_table(results):
    """ 生成 Markdown 表格 """
    ifnot results:
        return""
    # 获取列名
    columns = results[0].keys()
    
    # 表头
    table_md = "| " + " | ".join([col for col in columns]) + " |\n"
    # 分隔线
    table_md += "| " + " --- |" * len(columns) + "\n"
    
    # 表格内容
    for row in results:
        table_md += "| " + " | ".join([str(cell) for cell in row.values()]) + " |\n"
    
    return table_md

def main(arg1: str) -> dict:
    # 参数化查询,避免 SQL 注入
    query = "SELECT * FROM table_name WHERE column LIKE %s"
    params = ('%' + arg1 + '%',)
    
    # 连接到数据库
    conn = connect_to_database()
    ifnot conn:
        sys.exit(1)
    
    try:
        # 执行查询
        result = execute_query(conn, query, params)
        
        if result isNone:
            return {"result": [], "markdown": ""}
        
        # 生成 Markdown 表格
        markdown_table = generate_markdown_table(result)
        
        return {
            "result": result,
            "markdown": markdown_table
        }
    except Exception as e:
        print(f"Unexpected error: {e}")
        return {"result": [], "markdown": ""}
    finally:
        # 确保数据库连接关闭
        conn.close()

后记

这两种方式,不管哪种都能实现查询数据库,但是有个问题,数据量小的时候性能还行,数据量大了,你查询一次就得耗时好久。

如果知识固定,也可以前置设置一个知识库把关键词和文章映射出来,这样大模型整理的时候,尽量的去往对应的关键词上靠。

如何零基础入门 / 学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么我作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,希望可以帮助到更多学习大模型的人!至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

2024最新版优快云大礼包:《AGI大模型学习资源包》免费分享**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始,按照什么顺序学习,以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理,关键技术,以及大模型应用场景;通过理论原理结合多个项目实战,从提示工程基础到提示工程进阶,掌握Prompt提示工程。

L2级别:AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3级别:大模型Agent应用架构进阶实践

L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体;同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别:大模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调;并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握;而L3 L4更多的是通过项目实战来掌握大模型的应用开发,针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

三、大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

四、大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

2024最新版优快云大礼包:《AGI大模型学习资源包》免费分享

### DeepSeekDify知识库与资源 #### 关于 DeepSeek DeepSeek 是一家专注于开发大型语言模型 (LLM) 及其应用的公司。它提供了多种开源模型以及配套的技术文档和支持材料,帮助开发者更好地理解和使用这些模型。如果希望获取有关 DeepSeek 的具体资源,可以参考如下内容: - **官方 GitHub 仓库**:DeepSeek 经常在其官方 GitHub 页面上发布最新的研究成果和技术资料[^2]。这不仅包括预训练模型权重文件,还涉及详细的微调指南、推理优化方法等内容。 - **社区论坛与博客文章**:除了代码之外,参与 DeepSeek 社区讨论或者阅读他们的技术博文也是深入了解产品特性的有效途径之一。 #### 针对 Dify 的说明 Dify 则是一款基于 LLM 构建的应用程序框架解决方案,旨在简化企业级聊天机器人的部署流程。对于寻找与其相关的知识库而言,则可以从以下几个方面入手: - **项目主页上的文档中心**:这里通常会包含从入门指导到高级功能设置的所有必要信息[^3]。用户能按照指示完成环境搭建并自定义业务逻辑。 - **第三方整理的知识集合**:像 “awesome-LLM-resources” 这样的综合性列表里也可能收录了一些针对特定平台(如 Dify)的最佳实践案例分享[^4]。 综上所述,在探索上述两个主题的过程中,建议优先访问它们各自的官方网站及其关联网络空间来收集一手资讯;同时也可以借助广泛认可的信息汇编型项目辅助拓宽视野范围。 ```python import requests def fetch_deepseek_dify_resources(): deepseek_url = "https://github.com/DeepSeekAI" dify_url = "https://dify.dev/docs" try: response_ds = requests.get(deepseek_url) response_df = requests.get(dify_url) if response_ds.status_code == 200 and response_df.status_code == 200: print("Successfully fetched resources.") else: raise Exception("Failed to access one or both URLs.") except Exception as e: print(f"An error occurred: {e}") fetch_deepseek_dify_resources() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值