[用TiDB Vector实现高效AI应用：一站式指南]

最新推荐文章于 2025-12-05 12:37:18 发布

原创最新推荐文章于 2025-12-05 12:37:18 发布 · 394 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#tidb #人工智能 #python

部署运行你感兴趣的模型镜像

用TiDB Vector实现高效AI应用：一站式指南

人工智能技术发展迅猛，而数据库技术也在不断演进以满足AI需求。TiDB Serverless的新功能——内置向量搜索，正是此进程的一部分。本文将详细介绍如何使用TiDB Vector功能，助力开发者无缝集成AI应用。

引言

TiDB Cloud是一种全面的数据库即服务（DBaaS）解决方案，最近推出了TiDB Serverless，支持内置向量搜索功能。在本文中，我们将探讨如何利用这些新特性来开发AI应用，而无需更换数据库或增加额外技术栈。立即通过 PingCAP 创建免费TiDB Serverless集群，体验向量搜索功能。

主要内容

1. 环境设置

首先，安装必要的Python包：

%pip install langchain langchain-community
%pip install langchain-openai
%pip install pymysql
%pip install tidb-vector

接下来，配置OpenAI和TiDB的主机设置：

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
tidb_connection_string_template = "mysql+pymysql://<USER>:<PASSWORD>@<HOST>:4000/<DB>?ssl_ca=/etc/ssl/cert.pem&ssl_verify_cert=true&ssl_verify_identity=true"
tidb_password = getpass.getpass("Input your TiDB password:")
tidb_connection_string = tidb_connection_string_template.replace("<PASSWORD>", tidb_password)

2. 数据准备

使用Langchain加载文档，并通过OpenAI生成嵌入向量：

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import TiDBVectorStore
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

3. 向量搜索

创建向量表并执行语义相似性搜索：

TABLE_NAME = "semantic_embeddings"
db = TiDBVectorStore.from_documents(
    documents=docs,
    embedding=embeddings,
    table_name=TABLE_NAME,
    connection_string=tidb_connection_string,
    distance_strategy="cosine",
)

query = "What did the president say about Ketanji Brown Jackson"
docs_with_score = db.similarity_search_with_score(query, k=3)

4. 利用Metadata进行过滤

向量可附加Metadata，支持多种过滤操作：

db.add_texts(
    texts=[
        "TiDB Vector offers advanced, high-speed vector processing capabilities.",
        "TiDB Vector, starting as low as $10 per month for basic usage",
    ],
    metadatas=[
        {"title": "TiDB Vector functionality"},
        {"title": "TiDB Vector Pricing"},
    ],
)

docs_with_score = db.similarity_search_with_score(
    "Introduction to TiDB Vector", filter={"title": "TiDB Vector functionality"}, k=4
)