「Java AI实战」LangChain4J - 向量数据库接入与语义检索

原创

已于 2025-05-18 20:16:25 修改 · 1.7k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#java #人工智能 #数据库

于 2025-05-02 21:37:52 首次发布

系列文章目录

第一章「Java AI实战」LangChain4J接入Xinference本地大模型
 第二章「Java AI实战」LangChain4J - ChatAPI 及常用配置

文章目录

系列文章目录
前言
一、什么是向量数据库？
二、Xinference注册向量模型
三、接入Qdrant并实现语义问答
四、总结

前言

相比 Python 社区的 LangChain，LangChain4J 为 Java 提供了相似的链式语言模型编排能力，兼顾工程化可维护性与复杂场景的灵活性。而在众多场景中，向量数据库（如 FAISS、Milvus、Qdrant）扮演了大模型“记忆体”的角色，尤其适用于构建基于语义理解的问答系统（RAG）、文档检索、智能客服等系统。

一、什么是向量数据库？

1.1. 向量数据库的原理简述

在传统数据库中，检索通常依赖于关键词、精确匹配或范围查询。而在自然语言处理、图像识别等 AI 场景中，我们更需要的是语义相似度检索，即“查找与某个内容在语义上最接近的内容”。这正是向量数据库的核心用途。

✅ 什么是向量？

向量是通过深度学习模型（如 BERT、OpenAI Embedding、CLIP 等）对文本、图片、音频等内容提取出的稠密特征表示。

它通常表现为一个高维浮点数组，例如：

[0.12, -0.08, 0.33, ..., 0.91] // 维度可以是 384、768、1536 等

在语义空间中，相似的内容对应的向量距离会更近，从而实现语义检索。

✅ 向量数据库的核心功能

向量存储：存储大量高维向量及其关联元数据（如文档ID、标题、标签等）。
相似度搜索：基于欧几里得距离、余弦相似度等方式，快速查找最相近的Top-K向量。
近似最近邻（ANN）算法：为提升性能，向量数据库使用 ANN 算法（如 HNSW、IVF）在亿级数据中实现毫秒级搜索。
条件过滤：支持结合结构化字段（如类别、时间）进行筛选+向量检索。

✅ 与传统数据库的区别

功能点	传统数据库	向量数据库
检索方式	精确匹配 / 范围查询	语义相似度（向量Top-K）
数据结构	行/列、主键索引	高维向量 + 元数据结构
查询能力	SQL 查询	向量相似度 + 条件过滤
典型应用场景	电商、金融系统	搜索推荐、AI检索、RAG场景

1.2. 主流向量数据库介绍

名称	特点
Faiss	Facebook 出品，C++/Python，高性能本地引擎
Milvus	专业向量数据库，支持多种索引算法，企业级
Weaviate	云原生，支持 GraphQL 查询和语义增强
Pinecone	商业化云向量服务，易用性高
Qdrant	Rust 编写，支持嵌入过滤，支持 Docker 快速部署
Chroma	适合轻量级 RAG 本地场景，支持 LangChain

1.3. 向量数据库在语义搜索中的价值

向量数据库是语义搜索的核心基础设施，在传统关键词检索中，系统只能根据字面匹配进行查找，难以理解用户的真实意图。

而向量数据库通过将文本等非结构化内容映射为高维语义向量，使得系统能够基于语义相似度进行“意图层”的检索。

这意味着，即使用户输入的查询词与数据库中的文档没有明显的词面重合，系统依然可以通过语义向量的接近程度，返回语义相关度最高的内容。这种能力广泛应用于：

问答系统（RAG）：基于语义检索找到相关知识片段，提供更可靠的上下文补全。
智能搜索框：实现更“懂你”的搜索体验。
推荐系统：用向量衡量兴趣相似度，实现个性化推荐。
企业知识库检索：提升非结构化文档的可用性和搜索效率。

二、Xinference注册向量模型

在这里插入图片描述

三、接入Qdrant并实现语义问答

3.1. 项目依赖配置

   <dependencies>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>
        <dependency>
            <groupId>dev.langchain4j</groupId>
            <artifactId>langchain4j</artifactId>
        </dependency>
        <dependency>
            <groupId>dev.langchain4j</groupId>
            <artifactId>langchain4j-open-ai</artifactId>
        </dependency>
        <!--qdrant-->
        <dependency>
            <groupId>dev.langchain4j</groupId>
            <artifactId>langchain4j-qdrant</artifactId>
        </dependency>
        <!--sensitive-word-->
        <dependency>
            <groupId>com.github.houbb</groupId>
            <artifactId>sensitive-word</artifact

最低0.47元/天解锁文章