[轻松驾驭AstraDB：通过LangChain高效加载文档]-优快云博客

轻松驾驭AstraDB：通过LangChain高效加载文档

AstraDB是一个无服务器的数据库，基于Cassandra构建，并通过便捷的JSON API提供服务。本文旨在帮助您了解如何使用LangChain的AstraDB Document Loader从AstraDB数据库中检索文档。

了解AstraDB Document Loader

AstraDB Document Loader帮助开发者从AstraDB数据库中获取Langchain格式的文档。要使用它，您需要提供以下参数：

api_endpoint: AstraDB API端点。
token: AstraDB的访问令牌。
collection_name: 集合名称。
namespace: (可选) 命名空间。
filter_criteria: (可选) 查询过滤条件。
projection: (可选) 查询的字段投影。
find_options: (可选) 查询选项。
nb_prefetched: (可选) 预取文档的数量。
extraction_function: (可选) 文档转换函数，默认为json.dumps。

实现步骤

设置API端点和令牌：确保您的开发环境能够访问AstraDB的API。由于网络限制，您可能需要使用API代理服务来提高访问的稳定性。
配置文档加载器：初始化AstraDBLoader，并配置必要的参数。
加载文档：调用load()方法获取文档数据。

代码示例

下面是一个完整的代码示例，展示如何使用AstraDBLoader加载文档：

from langchain_community.document_loaders import AstraDBLoader
from getpass import getpass

# 输入API端点和应用程序令牌
ASTRA_DB_API_ENDPOINT = input("ASTRA_DB_API_ENDPOINT = ")
ASTRA_DB_APPLICATION_TOKEN = getpass("ASTRA_DB_APPLICATION_TOKEN = ")

# 配置AstraDB文档加载器
loader = AstraDBLoader(
    api_endpoint=ASTRA_DB_API_ENDPOINT,  # 使用API代理服务提高访问稳定性
    token=ASTRA_DB_APPLICATION_TOKEN,
    collection_name="movie_reviews",
    projection={"title": 1, "reviewtext": 1},
    find_options={"limit": 10},
)

# 加载文档
docs = loader.load()

# 打印第一个文档
print(docs[0])