Chroma向量数据库快速入门指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00406/article/details/148362753

Chroma向量数据库快速入门指南

chroma the AI-native open-source embedding database 项目地址: https://gitcode.com/gh_mirrors/chrom/chroma

什么是Chroma

Chroma是一款专为AI应用设计的开源向量数据库，它能够高效地存储、索引和检索向量数据。与传统数据库不同，Chroma专注于处理高维向量数据，这使得它特别适合用于机器学习、自然语言处理等AI场景。

安装Chroma

Python环境安装

对于Python开发者，安装Chroma非常简单：

pip install chromadb

这个命令会安装Chroma的核心功能以及所有必要的依赖项。

TypeScript环境安装

JavaScript/TypeScript开发者可以使用以下方式安装：

# 使用yarn
yarn add chromadb chromadb-default-embed

# 或使用npm
npm install --save chromadb chromadb-default-embed

# 或使用pnpm
pnpm add chromadb chromadb-default-embed

基本使用流程

1. 创建客户端

在Python中创建客户端非常简单：

import chromadb
chroma_client = chromadb.Client()

TypeScript版本需要先启动后端服务：

# 使用CLI启动
chroma run --path ./getting-started

# 或使用Docker
docker pull chromadb/chroma
docker run -p 8000:8000 chromadb/chroma

然后创建客户端：

import { ChromaClient } from "chromadb";
const client = new ChromaClient();

2. 创建集合(Collection)

集合是Chroma中存储数据的基本单位，它可以包含文档、向量和元数据：

collection = chroma_client.create_collection(name="my_collection")

3. 添加文档

Chroma会自动处理文本的向量化过程：

collection.add(
    documents=[
        "这是一篇关于菠萝的文档",
        "这是一篇关于橙子的文档"
    ],
    ids=["id1", "id2"]
)

4. 查询数据

查询时只需提供查询文本，Chroma会自动计算相似度：

results = collection.query(
    query_texts=["这是一篇关于夏威夷的查询文档"],
    n_results=2
)
print(results)

结果分析

查询返回的结果包含多个维度信息：

{
  'documents': [['这是一篇关于菠萝的文档', '这是一篇关于橙子的文档']],
  'ids': [['id1', 'id2']],
  'distances': [[1.0404, 1.2430]],
  'metadatas': [[None, None]]
}

其中：

documents：匹配的文档内容
ids：匹配文档的ID
distances：相似度距离（值越小越相似）
metadatas：附加的元数据

进阶使用技巧

避免重复创建集合：使用get_or_create_collection替代create_collection
避免重复添加文档：使用upsert替代add，它会自动更新已存在的文档
持久化存储：默认使用内存模式，数据不会持久化。生产环境应考虑使用持久化客户端或客户端-服务器模式

实际应用示例

假设我们要构建一个水果知识库：

import chromadb

# 初始化客户端
client = chromadb.Client()

# 获取或创建集合
collection = client.get_or_create_collection(name="fruits")

# 添加水果文档
collection.upsert(
    documents=[
        "菠萝原产于南美洲，是热带水果",
        "橙子富含维生素C，有助于增强免疫力",
        "苹果是温带水果，品种繁多",
        "香蕉是草本植物，生长在热带地区"
    ],
    ids=["pineapple", "orange", "apple", "banana"]
)

# 查询相似水果
results = collection.query(
    query_texts=["我想了解热带水果"],
    n_results=2
)

# 输出结果
print("最相关的热带水果信息：")
for doc in results['documents'][0]:
    print(f"- {doc}")

这个例子展示了如何使用Chroma构建一个简单的知识检索系统。