Chroma+LangChain：100 行 Java 代码实现本地知识库向量检索

原创于 2025-12-07 19:22:21 发布 · 360 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #java #开发语言

Java 进阶同时被 3 个专栏收录

136 篇文章

订阅专栏

人工智能AI

60 篇文章

订阅专栏

向量数据库

12 篇文章

订阅专栏

本文将介绍如何使用 Java 语言结合 Chroma 向量数据库和 LangChain 框架，通过约 100 行代码实现本地知识库的向量检索功能。

技术栈

Java 17+：开发语言
LangChain4j：Java 版 LangChain 框架
Chroma：轻量级向量数据库
Sentence Transformers：用于生成文本嵌入

环境准备

安装 Java 17+

安装 Chroma（可通过 Docker 快速部署）：

docker run -d -p 8000:8000 --name chroma chromadb/chroma

创建 Maven 项目，添加依赖：

<dependencies>
    <dependency>
        <groupId>dev.langchain4j</groupId>
        <artifactId>langchain4j</artifactId>
        <version>0.27.0</version>
    </dependency>
    <dependency>
        <groupId>dev.langchain4j</groupId>
        <artifactId>langchain4j-chroma</artifactId>
        <version>0.27.0</version>
    </dependency>
    <dependency>
        <groupId>dev.langchain4j</groupId>
        <artifactId>langchain4j-embeddings-sentence-transformers</artifactId>
        <version>0.27.0</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.9</version>
    </dependency>
</dependencies>

实现代码

import dev.langchain4j.data.document.Document;
import dev.langchain4j.data.document.DocumentLoader;
import dev.langchain4j.data.document.loader.FileSystemDocumentLoader;
import dev.langchain4j.data.document.splitter.DocumentSplitters;
import dev.langchain4j.data.embedding.Embedding;
import dev.langchain4j.data.segment.TextSegment;
import dev.langchain4j.model.embedding.EmbeddingModel;
import dev.langchain4j.model.embedding.SentenceTransformersEmbeddingModel;
import dev.langchain4j.store.embedding.EmbeddingStore;
import dev.langchain4j.store.embedding.chroma.ChromaEmbeddingStore;

import java.net.URI;
import java.nio.file.Path;
import java.util.List;

public class LocalKnowledgeBase {

    public static void main(String[] args) {
        // 1. 配置参数
        String chromaUrl = "http://localhost:8000";
        String collectionName = "local-knowledge-base";
        Path knowledgeBasePath = Path.of("src/main/resources/knowledge-base");
        
        // 2. 初始化嵌入模型
        EmbeddingModel embeddingModel = SentenceTransformersEmbeddingModel.builder()
                .modelName("all-MiniLM-L6-v2")
                .build();
        
        // 3. 初始化Chroma向量存储
        EmbeddingStore<TextSegment> embeddingStore = ChromaEmbeddingStore.builder()
                .baseUrl(URI.create(chromaUrl))
                .collectionName(collectionName)
                .build();
        
        // 4. 加载本地文档
        DocumentLoader documentLoader = FileSystemDocumentLoader.builder()
                .directoryPath(knowledgeBasePath)
                .build();
        List<Document> documents = documentLoader.load();
        
        // 5. 分割文档为文本段
        List<TextSegment> textSegments = DocumentSplitters.recursive(1000, 200)
                .splitAll(documents);
        
        // 6. 生成嵌入并存储到Chroma
        embeddingStore.addAll(textSegments, embeddingModel);
        
        // 7. 执行向量检索
        String query = "如何使用Java实现向量检索？";
        List<TextSegment> relevantSegments = embeddingStore
                .findRelevant(query, embeddingModel, 3)
                .stream()
                .map(match -> match.embedded())
                .toList();
        
        // 8. 输出检索结果
        System.out.println("查询: " + query);
        System.out.println("\n检索到的相关内容:");
        for (int i = 0; i < relevantSegments.size(); i++) {
            System.out.println("\n--- 结果 " + (i + 1) + " ---");
            System.out.println(relevantSegments.get(i).text());
        }
    }
}