在Google Cloud SQL for PostgreSQL上应用Langchain文档加载

最新推荐文章于 2025-12-04 22:56:41 发布

原创最新推荐文章于 2025-12-04 22:56:41 发布 · 461 阅读

CC 4.0 BY-SA版权

文章标签：

随着云服务的普及，开发人员在云平台上管理数据库已成为常态。Google Cloud SQL for PostgreSQL作为一种全托管的数据库服务，提供了便捷的集成工具，帮助你快速创建、管理并维护PostgreSQL数据库。本篇文章将向你展示如何利用Cloud SQL for PostgreSQL的Langchain集成，轻松加载文档数据。

核心原理解析

Langchain是一款强大的库，支持多种文档格式的加载和解析。在与Google Cloud SQL for PostgreSQL结合使用时，可以直接从数据库中提取数据，并以多种格式呈现。这是通过PostgresLoader类实现的，该类提供了异步接口以便高效读取数据。

代码实现演示

下面的示例展示了如何配置和使用Langchain来从Google Cloud SQL for PostgreSQL加载文档。我们假设你已经完成了Google Cloud项目的设置，并启用了Cloud SQL Admin API。

1. 环境准备

首先，确保安装了必要的Python包：

%pip install --upgrade --quiet langchain_google_cloud_sql_pg

如果你在Colab上运行此代码，可能需要重启内核以加载新的库。

2. 身份验证

使用以下代码进行Google Cloud身份验证：

from google.colab import auth
auth.authenticate_user()

3. 设置项目和数据库参数

设置项目和数据库的基本信息：

PROJECT_ID = "gcp_project_id"  # 替换为你的项目ID
! gcloud config set project {PROJECT_ID}

REGION = "us-central1"
INSTANCE = "my-primary"
DATABASE = "my-database"
TABLE_NAME = "vector_store"

4. 创建Postgres引擎

使用PostgresEngine连接到PostgreSQL数据库：

from langchain_google_cloud_sql_pg import PostgresEngine

# 创建一个Postgres引擎对象
engine = await PostgresEngine.afrom_instance(
    project_id=PROJECT_ID,
    region=REGION,
    instance=INSTANCE,
    database=DATABASE,
)

5. 加载文档

利用PostgresLoader加载文档：

from langchain_google_cloud_sql_pg import PostgresLoader

# 创建一个PostgresLoader对象
loader = await PostgresLoader.create(engine, table_name=TABLE_NAME)

# 加载文档
docs = await loader.aload()
print(docs)

可以自定义加载的列以及格式：

loader = await PostgresLoader.create(
    engine,
    table_name="products",
    content_columns=["product_name", "description"],
    format="YAML",
)
docs = await loader.aload()
print(docs)