使用Google Cloud SQL和Langchain存储向量嵌入:完整指南
引言
随着AI技术的快速发展,向量嵌入已成为许多AI应用程序的核心组件。Google Cloud SQL提供了一种高效且可扩展的方式来存储和管理向量嵌入。本指南将介绍如何使用Langchain将向量嵌入存储在Google Cloud SQL的PostgreSQL实例中。
主要内容
1. 准备工作
在开始之前,请确保完成以下步骤:
- 创建一个Google Cloud项目。
- 启用Cloud SQL Admin API。
- 创建一个Cloud SQL实例及其数据库。
- 为数据库添加用户。
2. 安装必要的库
%pip install --upgrade --quiet langchain-google-cloud-sql-pg langchain-google-vertexai
3. 身份验证和项目设置
在Google Colab中,可以使用以下代码进行身份验证:
from google.colab import auth
auth.authenticate_user()
设置Google Cloud项目ID:
PROJECT_ID = "my-project-id" # @param {type:"string"}
!gcloud config set project {PROJECT_ID}
4. 配置Cloud SQL数据库连接
from langchain_google_cloud_sql_pg import PostgresEngine
engine = await PostgresEngine.afrom_instance(
project_id=PROJECT_ID,
region="us-central1",
instance="my-pg-instance",
database="my-database"
)
5. 初始化向量存储表
await engine.ainit_vectorstore_table(
table_name="vector_store",
vector_size=768, # 对应VertexAI模型
)
6. 创建嵌入类实例
from langchain_google_vertexai import VertexAIEmbeddings
embedding = VertexAIEmbeddings(
model_name="textembedding-gecko@latest",
project=PROJECT_ID
)
7. 初始化 PostgresVectorStore
from langchain_google_cloud_sql_pg import PostgresVectorStore
store = await PostgresVectorStore.create(
engine=engine,
table_name="vector_store",
embedding_service=embedding,
)
代码示例
# 添加文本
import uuid
all_texts = ["Apples and oranges", "Cars and airplanes", "Pineapple", "Train", "Banana"]
metadatas = [{"len": len(t)} for t in all_texts]
ids = [str(uuid.uuid4()) for _ in all_texts]
await store.aadd_texts(all_texts, metadatas=metadatas, ids=ids)
# 搜索文本
query = "I'd like a fruit."
docs = await store.asimilarity_search(query)
print(docs)
常见问题和解决方案
网络访问限制
如果您在某些地区无法直接访问Google Cloud API,建议使用API代理服务以提高访问的稳定性。
异步接口
本示例使用异步接口,确保您在使用时环境支持异步编程。如果需要同步方法,Langchain提供了对应的同步接口。
总结与进一步学习资源
本文为您展示了如何在Google Cloud SQL中存储和管理向量嵌入,这是构建AI应用的重要技能。对于想进一步深入学习的开发者,请查看以下资源:
参考资料
如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!
—END—