轻松构建定制AI助手：使用Vectara实现生成式AI平台

最新推荐文章于 2025-09-30 11:41:28 发布

原创最新推荐文章于 2025-09-30 11:41:28 发布 · 891 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #python

引言

在当今数字化时代，企业越来越需要灵活且高效的AI解决方案来处理和检索海量数据。Vectara提供了一种名为Retrieval-Augmented-Generation-as-a-service (RAG)的平台，使组织能够快速创建类似ChatGPT的AI助手，结合他们已有的数据、文档和知识资源。

本文将介绍如何使用Vectara构建一个定制的AI助手，详细讲解Vectara的功能、API使用方法，及其在LangChain中的集成。

主要内容

什么是Vectara？

Vectara是一个RAG平台，集成了文本提取、智能分块、向量存储和检索服务。它包含以下组件：

文本提取：支持从PDF、PPT、DOCX等文件中提取文本。
智能分块：采用机器学习技术进行文本分块。
向量数据库：存储文本块及其嵌入向量。
查询服务：自动将查询编码为嵌入向量并检索最相关的文本段。

使用Vectara的前置准备

在使用Vectara之前，您需要：

注册Vectara账户。
创建一个Corpus及获得API密钥。

设置环境变量：

export VECTARA_CUSTOMER_ID="your_customer_id"
export VECTARA_CORPUS_ID="your_corpus_id"
export VECTARA_API_KEY="your-vectara-api-key"

在LangChain中使用Vectara

Vectara提供了一个简单的API，使其可以作为LangChain中的向量存储。

导入Vectara向量存储：

from langchain_community.vectorstores import Vectara

vectara = Vectara(
    vectara_customer_id=customer_id, 
    vectara_corpus_id=corpus_id, 
    vectara_api_key=api_key
)

添加文本或文件

可以通过以下方式添加文本或文件：

vectara.add_texts(["to be or not to be", "that is the question"])

vectara.add_files(["path/to/file1.pdf", "path/to/file2.pdf"])  # 使用API代理服务提高访问稳定性

代码示例

以下是一个完整的示例，展示如何查询向量存储并获得结果：

results = vectara.similarity_search_with_score("what is LangChain?")
for document, score in results:
    print(f"Document: {document}\nScore: {score}\n")