使用 StarRocks 作为高效的向量数据库_starrocks向量数据库-优快云博客

本文链接：https://blog.youkuaiyun.com/VYSAHF/article/details/146194487

在大数据和实时分析的时代，如何高效地管理和查询海量数据成为了关键问题之一。StarRocks 是一款高性能的分析型数据库，通常被归类为 OLAP 数据库，它在 ClickBench 基准测试中表现优异。由于其超高速的向量化执行引擎，StarRocks 也可以用作快速的向量数据库。在本文中，我们将展示如何使用 StarRocks 的向量存储功能。

技术背景介绍

StarRocks 作为下一代子秒级 MPP 数据库，支持多维度分析、实时分析和即席查询。在数据密集型应用中，StarRocks 的快速查询能力能够显著提升分析效率。特别是在处理大量文档的情境下，将文档嵌入到向量空间中是提高检索精度和速度的有效方式。

核心原理解析

向量数据库的核心思想是将文字或其他非结构化数据转换成向量表示（embedding），以便进行高效的相似性搜索。StarRocks 的向量化执行引擎能够快速处理这些向量数据，实现子秒级查询。

代码实现演示

下面的代码演示如何使用 StarRocks 作为向量数据库：

# 安装必要的库
%pip install --upgrade --quiet pymysql langchain-community

import openai
from langchain.chains import RetrievalQA
from langchain_community.document_loaders import DirectoryLoader, UnstructuredMarkdownLoader
from langchain_community.vectorstores import StarRocks
from langchain_community.vectorstores.starrocks import StarRocksSettings
from langchain_text_splitters import TokenTextSplitter
from langchain_openai import OpenAI, OpenAIEmbeddings

# 准备文档
loader = DirectoryLoader(
    "./docs", glob="**/*.md", loader_cls=UnstructuredMarkdownLoader
)
documents = loader.load()

# 将文档拆分为 token
text_splitter = TokenTextSplitter(chunk_size=400, chunk_overlap=50)
split_docs = text_splitter.split_documents(documents)

# 配置StarRocks
embeddings = OpenAIEmbeddings()
settings = StarRocksSettings()
settings.port = 41003
settings.host = "127.0.0.1"
settings.username = "root"
settings.password = ""
settings.database = "zya"

# 创建向量数据库实例并插入数据
def gen_starrocks(update_vectordb, embeddings, settings):
    if update_vectordb:
        return StarRocks.from_documents(split_docs, embeddings, config=settings)
    else:
        return StarRocks(embeddings, settings)

docsearch = gen_starrocks(True, embeddings, settings)

# 构建问答系统
llm = OpenAI()
qa = RetrievalQA.from_chain_type(
    llm=llm, chain_type="stuff", retriever=docsearch.as_retriever()
)

# 执行查询
query = "is profile enabled by default? if not, how to enable profile?"
resp = qa.run(query)
print(resp)