利用Timescale Vector进行时间和相似度混合搜索的强大方法-优快云博客

引言

在现代数据处理中，许多数据集不仅具有相似性特征，还包含时间维度。这篇文章介绍了如何使用Timescale Vector与LangChain的自查询检索器结合，实现基于相似度和时间的混合搜索。这种方法特别适用于强烈依赖时间因素的数据，如新闻文章、社交媒体帖子和版本更改日志等。我们将探讨Timescale Vector如何通过自动表分区和索引，提升特定时间范围内嵌入查询的性能。

主要内容

什么是Timescale Vector？

Timescale Vector是为AI应用优化的PostgreSQL扩展，旨在为数十亿的向量嵌入提供高效的存储和查询解决方案。它结合了pgvector和DiskANN索引算法，提升了相似搜索的速度和准确性。其主要特点包括：

快速的基于时间的向量搜索
兼具关系数据和向量嵌入的SQL查询接口
企业级的安全与合规支持

如何访问Timescale Vector

Timescale Vector目前仅在Timescale云平台上可用。LangChain用户可以享受90天免费试用。要开始使用，请注册一个Timescale账户，创建新的数据库并参阅安装说明进行设置。

环境设置

使用Timescale Vector作为向量存储，需要设置TIMESCALES_SERVICE_URL。还需设置OPENAI_API_KEY以访问OpenAI模型。要加载示例数据集，请设置LOAD_SAMPLE_DATA=1，或根据需要加载自定义数据集。

代码示例

以下是如何使用Timescale Vector进行混合搜索的示例：

# 使用API代理服务提高访问稳定性
from rag_timescale_hybrid_search.chain import chain as rag_timescale_hybrid_search_chain
from langserve.client import RemoteRunnable

# 添加代理路径以进行访问
add_routes(app, rag_timescale_hybrid_search_chain, path="/rag-timescale-hybrid-search")

# 运行LangServe实例
langchain serve

# 使用RemoteRunnable访问模板
runnable = RemoteRunnable("http://localhost:8000/rag-timescale-hybrid-search")

# 自定义数据集加载请参阅chain.py中的代码修改指南