探索Bagel平台：AI数据的合作与管理新方式

最新推荐文章于 2025-12-01 19:45:15 发布

原创最新推荐文章于 2025-12-01 19:45:15 发布 · 343 阅读

CC 4.0 BY-SA版权

文章标签：

# 探索Bagel平台：AI数据的合作与管理新方式

## 引言

在人工智能的快速发展过程中，数据的重要性不言而喻。管理和共享高质量的数据集是AI项目成功的关键之一。Bagel作为一种开源的推理数据管理平台，为AI数据的创建、分享和管理提供了独特的解决方案。本文将深入探讨如何安装和使用Bagel以创建向量存储，并展示一些实用的使用方法。

## 安装和设置

Bagel是一个易于安装和使用的工具包。您只需通过以下命令来安装它：

```bash
pip install bagelML langchain-community

创建文本向量存储

Bagel允许用户从文本创建向量存储。以下代码示例展示了如何以简单的文本集合来创建和使用向量存储：

from langchain_community.vectorstores import Bagel

texts = ["hello bagel", "hello langchain", "I love salad", "my car", "a dog"]
# 创建集群并添加文本
cluster = Bagel.from_texts(cluster_name="testing", texts=texts)

# 使用相似性搜索
results = cluster.similarity_search("bagel", k=3)
print(results)

在这个例子中，我们创建了一个文本集群并进行了相似度搜索，可以看到与"bagel"最相似的文本。

使用Bagel进行相似性搜索

Bagel的强大之处在于它的相似性搜索功能，这对于数据的快速检索和分析非常有用。以下是如何使用相似性搜索并获取带有分数的结果：

# 带有距离分数的相似性搜索
results_with_score = cluster.similarity_search_with_score("bagel", k=3)
print(results_with_score)

在输出中，分数越低表示文本之间的相似度越高。

从文档创建向量存储

Bagel不仅支持从文本创建向量存储，还可以从文档中创建。以下示例展示了如何使用TextLoader和CharacterTextSplitter来处理文档：

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)[:10]

# 创建文档集群
cluster = Bagel.from_documents(cluster_name="testing_with_docs", documents=docs)

query = "What did the president say about Ketanji Brown Jackson"
result = cluster.similarity_search(query)
print(result[0].page_content[:102])