探索Atlas：在浏览器中可视化和共享海量数据集

引言

在现代数据驱动的世界中，如何有效地处理和可视化大规模非结构化数据集是一项重大的挑战。Nomic提供的Atlas平台正是为此而生。本文将带您深入了解如何使用Atlas及其与Langchain社区工具集成的方法，帮助您轻松可视化、搜索和共享数据集。如需稳定访问API，建议使用API代理服务。

主要内容

安装和设置

要开始使用Atlas，首先需要安装相关的Python包：

%pip install -qU langchain-community
%pip install --upgrade --quiet spacy
%pip install --upgrade --quiet nomic

!python3 -m spacy download en_core_web_sm

加载工具包

接下来，我们加载必要的工具包，包括数据加载器、文档分割器和向量存储对象。

import time
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import AtlasDB
from langchain_text_splitters import SpacyTextSplitter

准备数据

假设我们希望使用一个关于State of the Union的文本文件来演示Atlas的功能。

# 准备数据
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()
text_splitter = SpacyTextSplitter(separator="|")
texts = []
for doc in text_splitter.split_documents(documents):
    texts.extend(doc.page_content.split("|"))

texts = [e.strip() for e in texts]

使用Nomic的Atlas映射数据

我们将数据映射到Nomic的Atlas中，以实现更高级的分析。

ATLAS_TEST_API_KEY = "7xDPkYXSYDc1_ErdTPIcoAR9RNd8YDlkS3nVNXcVoIMZ6" # 确保使用最新的API密钥

# 创建一个AtlasDB对象用于存储向量
db = AtlasDB.from_texts(
    texts=texts,
    name="test_index_" + str(time.time()),  # 唯一的向量存储名称
    description="test_index",  # 向量存储的描述
    api_key=ATLAS_TEST_API_KEY,
    index_kwargs={"build_topic_model": True},
)

# 等待项目锁定完成
db.project.wait_for_project_lock()

# 输出项目对象以获取地图链接
db.project