构建LangChain应用程序的示例代码：15、与Cassandra数据库集成操作指南

最新推荐文章于 2025-12-19 16:00:26 发布

原创

最新推荐文章于 2025-12-19 16:00:26 发布 · 580 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#数据库 #langchain #AI编程

设置环境

Python 模块

安装以下 Python 模块：

pip install ipykernel python-dotenv cassio pandas langchain_openai langchain langchain-community langchainhub langchain_experimental openai-multi-tool-use-parallel-patch

加载 .env 文件

连接使用 cassio 并通过 auto=True 参数，notebook 使用 OpenAI。您应该相应地创建一个 .env 文件。

对于 Cassandra，设置：

CASSANDRA_CONTACT_POINTS
CASSANDRA_USERNAME
CASSANDRA_PASSWORD
CASSANDRA_KEYSPACE

对于 Astra，设置：

ASTRA_DB_APPLICATION_TOKEN
ASTRA_DB_DATABASE_ID
ASTRA_DB_KEYSPACE

例如：

# 连接到 Astra:
ASTRA_DB_DATABASE_ID=a1b2c3d4-...
ASTRA_DB_APPLICATION_TOKEN=AstraCS:...
ASTRA_DB_KEYSPACE=notebooks

同时设置
OPENAI_API_KEY=sk-.....

（您也可以修改下面的代码，直接使用 cassio 连接。）

from dotenv import load_dotenv
load_dotenv(override=True)

连接到 Cassandra

import os
import cassio
cassio.init(auto=True)
session = cassio.config.resolve_session()
if not session:
    raise Exception(
        "检查环境配置或手动配置 cassio 连接参数"
    )

keyspace = os.environ.get(
    "ASTRA_DB_KEYSPACE", os.environ.get("CASSANDRA_KEYSPACE", None)
)
if not keyspace:
    raise ValueError("必须设置 KEYSPACE 环境变量")

session.set_keyspace(keyspace)

设置数据库

这只需要做一次！

下载数据

使用的数据集来自 Kaggle，环境传感器遥测数据。下一个单元格将自动下载并解压缩数据到 Pandas 数据框中。下面的单元格是手动下载的说明。

本节的最终结果是您应该有一个 Pandas 数据框变量 df。

自动下载

from io import BytesIO
from zipfile import ZipFile
import pandas as pd
import requests

datasetURL = "https://storage.googleapis.com/kaggle-data-sets/788816/1355729/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240404%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240404T115828Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=2849f003b100eb9dcda8dd8535990f51244292f67e4f5fad36f14aa67f2d4297672d8fe6ff5a39f03a29cda051e33e95d36daab5892b8874dcd5a60228df0361fa26bae491dd4371f02dd20306b583a44ba85a4474376188b1f84765147d3b4f05c57345e5de883c2c29653cce1f3755cd8e645c5e952f4fb1c8a735b22f0c811f97f7bce8d0235d0d3731ca8ab4629ff381f3bae9e35fc1b181c1e69a9c7913a5e42d9d52d53e5f716467205af9c8a3cc6746fc5352e8fbc47cd7d18543626bd67996d18c2045c1e475fc136df83df352fa747f1a3bb73e6ba3985840792ec1de407c15836640ec96db111b173bf16115037d53fdfbfd8ac44145d7f9a546aa"

response = requests.get(datasetURL)
if response.status_code == 200:
    zip_file = ZipFile(BytesIO(response.content))
    csv_file_name = zip_file