AI × Lakehouse：实现自然语言驱动的数据分析

原创已于 2025-11-12 11:58:31 修改 · 966 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#数据平台 #ai #Lakehouse #数据湖仓

于 2025-11-10 19:57:00 首次发布

📌 导读：

过去，数据分析意味着写复杂SQL、等待执行、解读结果。现在，借助 Lakehouse MCP Server 的50多个工具（详见附录工具列表），让这一切变得像对话一样自然：用户用业务语言提问，AI自动理解并生成查询，Lakehouse在底层高效执行，最终答案以自然语言返回。这样的模式不仅降低了数据使用门槛，还加快了决策与创新的节奏，并依托 Lakehouse的实时引擎，确保结果始终鲜活。从过去AI的小规模数据分析，到如今AI × Lakehouse的结合，让智能数据服务真正触手可及。

什么是 MCP：AI与数据系统的标准化桥梁

MCP (Model Context Protocol)是一个标准化的接口协议，它保证了AI与外部系统的交互是安全的、可控的、可扩展的。而云器Lakehouse本身已经是一个高性能、低延迟、支持通用增量计算的数据底座。两者结合，就相当于：

MCP提供了“语言 → 调用”的桥梁：将自然语言转换为系统调用
Lakehouse提供了“调用 → 执行”的引擎：高效执行数据查询和分析

这种架构设计解决了传统数据分析中最大的痛点—技术门槛与业务需求之间的鸿沟。

价值意义：从技术驱动到业务驱动的转变

传统数据平台的使用方式是“写SQL → 系统执行”。这要求用户必须懂 schema、懂SQL语法，还要能把业务问题翻译成查询逻辑。MCP Server的出现，把这个流程替换为：

💡 输入业务语言 → AI 理解并生成查询 → Lakehouse 高效执行 → AI 用自然语言返回答案

这背后的价值体现在三个维度：

1. 认知门槛降低

更多人可以直接与数据对话，而不是依赖数据工程师。业务分析师、产品经理，甚至业务决策者都能直接获取数据洞察，真正实现了数据的民主化。

2. 迭代速度加快

实验和分析不再被阻塞在“写查询 → 等人”的环节。想法可以立即验证，假设可以快速测试，大大缩短了从问题到答案的路径。

3. 实时智能服务

Lakehouse的秒级延迟能力，让AI可以返回「鲜活」的数据。无论是实时监控、动态报表还是即时决策支持，都能基于最新的数据状态进行。

云器 Lakehouse MCP Server：技术架构与特性

💡 云器Lakehouse 正式开放 MCP 协议集成公测。这意味着任何支持 MCP 的 AI 客户端都可以直接与云器 Lakehouse 进行交互，用户仅需使用自然语言，就可以享受企业级数据湖仓的强大能力。

Lakehouse MCP Server 是专为 Lakehouse 平台设计的 MCP 服务器，它将云器 Lakehouse 强大的数据湖仓能力与 AI 助手无缝集成，让用户能够通过自然语言与数据湖仓进行交互。

核心特性

协议支持：支持 HTTP (Streamable)、SSE、Stdio 三种传输协议
标准兼容：完全遵循 MCP 官方规范，提供标准 /mcp 端点
广泛兼容：支持 Claude Desktop、Dify、n8n、Cursor 等主流平台

部署环境要求

系统要求

操作系统：MacOS、Windows、Linux
Docker：20.10+ 版本
内存：最低 2GB，推荐 8GB
CPU：最低 2 核，推荐 4 核
存储：最低 10GB 可用空间

快速开始：从零到一构建智能数据对话

本示例介绍采用 HTTP (Streamable) 协议方式部署（推荐），同时 Claude Desktop (MCP 客户端) 和MCP服务器都运行在同一台本地计算机（localhost）上。该架构同样支持分布式部署，即客户端、服务器和 Lakehouse 平台可以分别位于不同的远程主机上。

步骤0：MCP Server 端配置准备

Docker 环境准备：访问<https://www.docker.com/products/docker-desktop/> 下载 Docker Desktop for Mac。

1. 验证安装 Docker Desktop （MacOS 环境）保证 Docker 版本20.10+

docker --version

2. 配置 Docker Desktop：

分配至少 4GB 内存给 Docker
启用文件共享功能

步骤1：MCP Server 端：拉取最新云器的 MCP Server 镜像

docker pull czqiliang/mcp-clickzetta-server:latest

步骤2：MCP Server 端：创建工作目录（如果不存在）

macOS:

mkdir -p ~/.clickzetta/lakehouse_connection

Windows PowerShell:

New-Item -ItemType Directory -Path "$env:USERPROFILE\.clickzetta/lakehouse_connection" -Force

在上述路径下，新建名称为connections.json的配置文件并添加 Lakehouse 实例的连接信息，配置模板如下（如果连接两个 Lakehouse 实例，用逗号分隔）：

{
  "connections": [
    {
      "is_default": true,
      "service": "cn-shanghai-alicloud.api.clickzetta.com",
      "username": "__your_name__",
      "password": "__your_password__",
      "instance": "__your_instanceid__",
      "workspace": "__your_workspacename__",
      "schema": "public",
      "vcluster": "default_ap",
      "description": "UAT environment for testing",
      "hints": {
        "sdk.job.timeout": 300,
        "query_tag": "mcp_uat"
      },
      "name": "Shanghai production env",
      "is_active": false,
      "last_test_time": "2025-06-30T19:55:51.839166",
      "last_test_result": "success"
    }
  ]
}

参数说明：

参数名	说明	示例值
is\_default	是否为默认连接配置	true
service	服务端点地址请参考文档 https://www.yunqi.tech/documents/Supported_Cloud_Platforms	上海阿里云：cn-shanghai-alicloud.api.clickzetta.com 北京腾讯云：ap-beijing-tencentcloud.api.clickzetta.com 北京 AWS ：cn-north-1-aws.api.clickzetta.com 广州腾讯云：ap-guangzhou-tencentcloud.api.clickzetta.com 新加坡阿里云：ap-southeast-1-alicloud.api.singdata.com 新加坡AWS：ap-southeast-1-aws.api.singdata.com
username	用户名，用于身份验证	"your_name"
password	密码，用于身份验证	"your_password"
instance	实例ID，标识特定的Lakehouse实例	"your_instanceid"
workspace	工作空间名称，用于数据隔离和组织	"your_workspacename"
schema	数据库模式名称	"public"
vcluster	虚拟集群名称，用于计算资源管理	"default_ap"
description	连接配置的描述信息	"PRD environment for marketing"
hints	性能优化和标识配置对象	{...}
hints.sdk.job.timeout	SDK作业超时时间（秒）	300
hints.query\_tag	查询标签，用于查询追踪和标识	"mcp_uat"
name	连接配置的名称标识	"Shanghai production env"
is\_active	连接是否处于活跃状态	false
last\_test\_time	最后一次连接测试的时间戳（ISO格式）	"2025-06-30T19:55:51.839166"
last\_test\_result	最后一次连接测试的结果状态	"success"

步骤3：MCP Server 端：启动 MCP Server 镜像

创建docker-compose.yml文件，拷贝内容到文件中（文件内容详见附录）

在包含该文件的目录下打开终端或命令行，并执行以下命令。

docker compose up -d

预期输出：

bash-3.2$ docker compose up -d
[+] Running 4/4
 ✔ Network mcp_docker_clickzetta-net  Created       0.0s 
   ✔ Container clickzetta-sse           Started       0.2s 
   ✔ Container clickzetta-http          Started       0.2s 
   ✔ Container clickzetta-webui         Started       0.2s

校验状态，使用docker compose ps --format "table {{.Name}}\t{{.Service}}\t{{.Status}}" 命令，预期输出如下(忽略 WARNING 信息)：

bash-3.2$ docker compose ps --format "table {{.Name}}\t{{.Service}}\t{{.Status}}"

NAME               SERVICE            STATUS
clickzetta-http    clickzetta-http    Up 5 hours (unhealthy)
clickzetta-sse     clickzetta-sse     Up 5 hours (unhealthy)
clickzetta-webui   clickzetta-webui   Up 5 hours (unhealthy)

如果需要关闭，请在包含docker-compose.yml文件的目录下执行：docker compose down

步骤4：配置 Claude Desktop

本示例选择的MCP 客户端工具是Claude Desktop，主机与MCP Server 端位于同一台主机

找到并打开 Claude Desktop 配置文件：

macOS 操作步骤：

打开 Finder
按 Cmd+Shift+G
粘贴路径：~/Library/Application Support/Claude
双击打开 claude_desktop_config.json（用文本编辑器）

Windows 操作步骤：

按 Win+R 打开运行对话框
输入 %APPDATA%\Claude 并回车
右键点击 claude_desktop_config.json
选择"编辑"或"用记事本打开"

将以下内容复制到配置文件（替换原有内容或添加到mcpServers 中）：

请输入 MCP Server 的地址：如果服务器与客户端运行在同一台机器上，请填写 localhost；否则，请填写服务器的 IP 地址。

{
  "mcpServers": {
    "clickzetta-http": {
      "command": "npx", 
      "args": [
        "-y", "mcp-remote",
        "http://<YOUR_SERVER_IP>:8002/mcp",
        "--allow-http",
        "--transport", "http"
      ]
    }
  }
}

配置完成！

另外：Claude Desktop 支持通过多种方式连接后端的 MCP Server，以适应不同的部署环境和性能需求。上面的示例介绍了 **HTTP (Streamable**) 协议连接方式，如果想利用 SSE 或者 STDIO 协议连接，配置也很简单：

SSE 连接方式（远程服务）

SSE (Server-Sent Events) 是一种基于 HTTP 的长连接技术，允许服务器向客户端单向推送消息。相比于传统的轮询方式，SSE 能够以更低的延迟实现实时通信。

适用场景：需要从服务器实时接收数据流或更新通知的场景。
Docker Server 配置参考：此方式对应启动容器中的 clickzetta-sse 的服务，该服务在8003端口上提供服务。
配置示例：在Claude Desktop的claude_desktop_config.json配置文件中更新如下信息，连接到远程SSE端点。

{
  "mcpServers": {
    "clickzetta-remote-sse": {
      "command": "npx",
      "args": [
        "-y", "mcp-remote",
        "http://localhost:8003/sse",
        "--allow-http",
        "--transport", "sse"
      ]
    }
  }
}

说明：

请将 <YOUR_SERVER_IP> 替换为 MCP Server 实际的 IP 地址或域名。
目标端口为8003，端点路径为 /sse。
--transport sse 参数指明了使用SSE通信协议。

STDIO 连接方式（本地进程）

此方式主要用于本地开发和调试。Claude Desktop 会将 MCP Server 作为一个子进程直接在本地启动，并通过标准输入/输出（STDIO）进行通信。这种方式延迟最低，但不适用于远程连接。

适用场景：本地开发、单机部署。
Docker Server 配置参考：此方式对应启动容器中的 clickzetta-stdio 的服务，该容器镜像会随着 Claude Desktop 的开启和关闭，自动操作容器镜像拉起和停止。
配置示例：在Claude Desktop的 claude_desktop_config.json 配置文件中更新如下信息，直接指定启动本地 Server 的命令。

注意：

1. 配置文件中-v 后的路径中USERNAME请根据系统的实际路径进行修改。

2. 请使用docker compose down关闭创建的相关容器，因为此种方式下，Claude Desktop会随着自身的开启和关闭，自动操作容器镜像拉起和停止。

{
  "mcpServers": {
    "clickzetta-stdio": {
      "command": "docker",
      "args": [
        "run", "-i", "--rm",
        "--stop-timeout", "60",
        "-p", "8502:8501",
        "-v", "/Users/derekmeng/.clickzetta:/app/.clickzetta",
        "czqiliang/mcp-clickzetta-server:latest"
      ]
    }
  }
}

说明：

command和args 直接定义了如何在本地启动 MCP Server。
无需指定IP地址和端口。
--transport stdio参数指明了使用STDIO通信协议。

开始使用：

部署验证

1. 打开Claude Desktop，在输入框中，发送以下指令：

列出所有 Clickzetta Lakehouse 可用的 MCP工具

如果连接成功，您将看到一个包含 50+ 个工具的列表（注意：随着版本更新，工具的具体数量可能会有变化）

2. 验证WebUI界面

在您的浏览器中访问以下地址：http://localhost:8503, 预期可以展示以下页面：

如果以上两个步骤都顺利完成，恭喜您，您的应用已成功安装！

第二步：配置您的第一个数据源 (Lakehouse)

接下来，让我们配置一个Lakehouse连接，以便Claude可以访问您的数据。

1、打开连接管理器

访问WebUI界面http://localhost:8503，然后在左侧菜单中选择「连接管理」。

2、添加并填写连接信息

点击「添加新连接」按钮，并根据提示准确填写您的Lakehouse连接信息（如主机、端口、凭证等）

测试并保存

填写完毕后，点击「**测试连接**」按钮，确保所有配置信息无误且网络通畅。
测试通过后，点击「**保存**」完成配置。

第三步：开始您的第一个查询

现在一切准备就绪！您可以开始与您的数据进行交互了。尝试在Claude Desktop中提问：

"帮我看下有哪些 Lakehouse 实例"

高级配置：配置云器产品文档知识库

这个步骤会将云器Lakehouse产品知识库表集成进来，构建一个智能问答知识库。配置完成后，您将能够在MCP Client（如Claude Desktop）中，通过自然语言提问的方式，快速获得关于Lakehouse操作的官方指导和答案

该功能的核心是利用**嵌入服务 (Embedding**) 和**向量搜索 (Vector Search**) 技术，将非结构化的文档转化为可供机器理解和检索的知识库。

第一步：配置嵌入服务

此步骤的目的是告诉MCP系统如何将用户的“问题”也转换成向量，以便在知识库中进行匹配。

1、在MCP Server管理界面，从左侧导航栏进入「**系统配置**」。

2、在主配置区，选择「**嵌入服务**」标签页。

3、找到并填写 **DashScope 配置**（默认）部分：

API Key：粘贴您的阿里云百炼平台的 API 密钥。这是调用模型的身份凭证，请妥善保管。
向量维度 (Vector Dimension)：输入您选择的嵌入模型所输出的向量维度。**此值必须与知识库文档向量化时使用的维度完全一致**。例如，截图中 text-embedding-v4 模型的维度是 1024。
嵌入模型 (Embedding Model)：选择或填写用于将文本转换为向量的模型名称，例如 text-embedding-v4。
最大文本长度 (Max Text Length)：设置模型一次可以处理的文本单元（Token）的最大数量。如果问题过长，超出部分将被忽略。

4. 点击保存嵌入服务配置按钮。

第二步：配置向量搜索

此步骤的目的是告诉MCP系统去哪里、以及如何搜索已经存储好的文档知识库。

1. 在系统配置页面，切换到「**向量搜索**」标签页。
2. 填写向量表配置部分：

向量表名称 (Vector Table Name)：准确填写存储了文档向量的完整表名。格式通常为数据库名.模式名.表名，例如clickzetta_sample_data.clickzetta_doc.kb_dashscope_clickzetta_elements。
嵌入列 (Embedding Column)：填写该表中用于存储**文本向量**的列名，例如 embeddings。
内容列 (Content Column)：填写该表中用于存储**原始文本内容**的列名，例如 text。当系统找到相关答案时，这里的内容会作为主要参考。
其他列 (Other Columns)：可选。填写您希望一并检索出的元数据列，如 file_directory, filename，这有助于用户追溯信息的原始出处。

3. 配置 **搜索参数**：保持默认即可，如果想进行修改，请参考下面的说明

距离阈值 (Distance Threshold)：设置一个相似度匹配的严格程度。系统会计算问题向量与文档向量之间的“距离”，只有距离小于此值的文档才会被视为相关。**值越小，代表匹配要求越严格**。通常建议从0.80 开始尝试。
返回结果数 (Number of Results to Return)：定义单次查询从数据库中检索出的最相关文档的数量。例如，设置为5表示每次找出5个最相关的文档片段。
启用重排序 (Enable Reranking)：勾选此项后，系统会对初步检索出的结果进行二次智能排序，以提高最准确答案出现在最前面的概率。

4. 点击保存向量搜索配置按钮。

其他典型使用场景

请参考公众号文章：

MCP Server 如何助力 Lakehouse 实现 AI 驱动的 6 大数据应用场景

我们期待与您一起探索 AI 驱动的数据分析新时代！

附录

1. 创建docker-compose.yml文件内容，详见：

https://www.yunqi.tech/documents/LakehouseMCPServer_intro

2. Lakehouse MCP工具列表：

序号	工具名称	功能类别	主要功能	支持操作
1	read_query	数据查询	执行SELECT查询并返回结果	支持自动结果限制，Spark SQL兼容
2	write_query	数据操作	执行写操作SQL语句	INSERT/UPDATE/DELETE/CREATE/DROP
3	vector_search	AI搜索	对表执行向量搜索/知识检索	智能列名推断，支持分区过滤
4	match_all	全文搜索	使用MATCH_ALL函数进行全文搜索	自动检测可搜索文本列
5	get_product_knowledge	知识检索	从向量数据库中搜索产品知识	语义相似性搜索
6	show_object_list	对象管理	列出数据库对象，支持智能筛选	智能分析、精确统计、过滤建议
7	desc_object	对象查看	获取数据库对象的详细信息	支持扩展模式、历史信息、索引信息
8	desc_object_history	版本管理	查看对象的历史版本和变更记录	支持TABLE/VIEW/FUNCTION/PIPE
9	drop_object	对象删除	安全删除各种类型的数据库对象	确认机制、UNDROP提示
10	restore_object	时间旅行	将对象恢复到指定历史时间点	支持表、动态表、物化视图
11	undrop_object	对象恢复	恢复被删除的对象	支持表、动态表、物化视图
12	create_table	表创建	创建ClickZetta表，支持完整语法	分区、分桶、索引、约束、生成列
13	create_external_table	外部表	创建外部表(Delta Lake格式)	仅支持Delta Lake，对象存储
14	create_dynamic_table	动态表	创建动态表，自动维护查询结果	自动刷新、增量更新
15	create_table_stream	流表	创建表流，用于捕获表变更数据	CDC功能，跟踪INSERT/UPDATE/DELETE
16	create_schema	模式创建	创建新的SCHEMA(数据模式)	逻辑分组，权限管理
17	create_external_schema	外部模式	创建外部SCHEMA映射	基于CATALOG CONNECTION
18	create_catalog_connection	目录连接	创建外部元数据目录连接	支持Hive、OSS、Databricks
19	create_external_catalog	外部目录	创建外部CATALOG挂载	基于已创建的CATALOG CONNECTION
20	create_storage_connection	存储连接	创建存储系统连接	HDFS、OSS、COS、S3、Kafka
21	create_api_connection	API连接	创建API CONNECTION用于云函数	阿里云FC、腾讯云函数、AWS Lambda
22	create_volume	存储卷	创建EXTERNAL VOLUME访问对象存储	自动验证bucket存在性
23	put_file_to_volume	文件上传	将文件上传到Volume存储	支持URL、本地文件、直接内容
24	get_file_from_volume	文件下载	从Volume下载文件到本地	支持单个或批量文件下载
25	list_files_on_volume	文件列表	列举Volume中的文件列表	支持子目录浏览、正则筛选
26	remove_file_from_volume	文件删除	从Volume删除文件或目录	支持文件和目录删除
27	create_index	索引创建	创建索引	VECTOR/INVERTED/BLOOMFILTER三种类型
28	create_function	UDF创建	创建基于SQL的用户自定义函数	仅支持SQL表达式和查询
29	create_external_function	外部函数	创建外部函数，支持Python/Java代码	云函数执行，复杂业务逻辑
30	package_external_function	函数打包	智能打包Python外部函数及依赖	生产/开发/Docker三种模式
31	get_external_function_guide	函数指南	获取外部函数开发指南	Python开发规范、最佳实践
32	get_external_function_template	函数模板	获取外部函数开发模板	AI文本、多模态、向量、业务场景
33	create_pipe	管道创建	创建PIPE管道用于自动化数据导入	智能模式、手动模式
34	alter_pipe	管道修改	修改PIPE属性	suspend/resume、批处理参数
35	create_vcluster	集群创建	创建虚拟计算集群	资源隔离、工作负载管理
36	alter_vcluster	集群修改	修改计算集群配置	启停、属性配置、说明更新
37	get_current_context	上下文查看	获取当前连接的上下文信息	连接、WORKSPACE、SCHEMA、VCLUSTER
38	switch_context	上下文切换	切换当前上下文	会话级切换，智能路由
39	switch_vcluster_schema	环境切换	切换虚拟集群和模式	在当前workspace内切换
40	switch_workspace	工作空间	切换workspace	重新建立数据库连接
41	switch_lakehouse_instance	实例切换	切换多云环境或Lakehouse环境	多云、多环境、多地域切换
42	import_data_src	数据导入	从URL、文件路径或Volume导入数据	支持多种格式，三种写入模式
43	import_data_from_db	数据库导入	从外部数据库导入数据	MySQL、PostgreSQL、SQLite
44	preview_volume_data	数据预览	对Volume文件进行SQL查询分析	预览模式、导入模式
45	alter_dynamic_table	动态表修改	修改动态表属性	suspend/resume、注释、列操作
46	modify_dynamic_table_data	动态表数据	对动态表执行数据修改操作	INSERT/UPDATE/DELETE/MERGE
47	refresh_dynamic_table	动态表刷新	手动刷新动态表数据	立即刷新数据
48	create_knowledge_base	知识库创建	创建知识库，支持文档向量化	非结构化ETL管道
49	add_knowledge_entry	知识添加	添加知识条目到向量数据库	产品知识、技术规范存储
50	add_data_insight	洞察记录	添加数据洞察到备忘录	分析过程中的重要发现
51	manage_share	共享管理	管理SHARE对象	跨实例数据共享，OUTBOUND/INBOUND
52	show_job_history	作业历史	查询系统级作业执行历史	性能分析、问题排查
53	show_table_load_history	加载历史	查询表的COPY操作加载历史	文件导入历史追踪(7天保留)
54	smart_crawl_to_volume	智能爬取	智能抓取URL内容到Volume	sitemap、网页、文档抓取
55	smart_crawl_url	网页抓取	智能网页内容抓取	高级提取策略、智能分块
56	crawl_single_page	单页抓取	单页面网页抓取	CSS选择器、原始HTML
57	get_operation_guide	操作指南	获取特定操作的综合指南	详细步骤、最佳实践、常见问题
58	run_happy_paths	演示路径	执行Lakehouse快乐路径演示	关键功能展示、完整使用流程