使用 Elasticsearch 实现高效的嵌入缓存

dgay_hua

于 2025-03-24 13:48:27 发布

阅读量233

点赞数 3

文章标签： elasticsearch 缓存大数据 python

本文链接：https://blog.youkuaiyun.com/dgay_hua/article/details/146474507

版权

在现代 AI 应用中，如何高效地存储和检索嵌入是一个关键问题。ElasticsearchEmbeddingsCache 为我们提供了一个利用 Elasticsearch 实现的高效解决方案。本文将深入解析其核心原理，并提供可直接运行的代码示例。

技术背景介绍

Elasticsearch 是一个分布式搜索和分析引擎，其强大的索引和检索能力使其成为存储和处理大量数据的理想选择。作为 ByteStore 的一个实现，ElasticsearchEmbeddingsCache 使用 Elasticsearch 实例来高效地存储和检索 AI 嵌入数据。

核心原理解析

ElasticsearchEmbeddingsCache 将嵌入数据存储在 Elasticsearch 中的文档内，其核心是利用 Elasticsearch 的索引和搜索能力来管理大量嵌入数据。虽然嵌入数据默认不会被搜索，但开发者可以通过自定义文档构建来实现搜索功能。

代码实现演示

下面的代码展示了如何在本地运行的 Elasticsearch 实例中设置 ElasticsearchEmbeddingsCache：

from langchain_elasticsearch import ElasticsearchEmbeddingsCache

# 配置本地 Elasticsearch 实例
kv_store = ElasticsearchEmbeddingsCache(
    es_url="https://localhost:9200",  # 本地访问
    index_name="llm-chat-cache",
    metadata={"project": "my_chatgpt_project"},  # 项目元数据
    namespace="my_chatgpt_project",
    es_user="elastic",  # 用户名（默认为 elastic）
    es_password="<GENERATED PASSWORD>",  # 安全密码
    es_params={
        "ca_certs": "~/http_ca.crt",  # CA 证书路径
    },
)

# 设置键值对
kv_store.mset(
    [
        ["key1", b"value1"],
        ["key2", b"value2"],
    ]
)

# 获取键值对
result = kv_store.mget(
    [
        "key1",
        "key2",
    ]
)
print(result)  # [b'value1', b'value2']

# 删除键值对
kv_store.mdelete(
    [
        "key1",
        "key2",
    ]
)

# 验证删除
result = kv_store.mget(
    [
        "key1",
        "key2",
    ]
)
print(result)  # [None, None]