轻松入门SpringAI-SpringAI实现RAG

最新推荐文章于 2025-08-02 12:01:09 发布

程序员码小跳

最新推荐文章于 2025-08-02 12:01:09 发布

阅读量1k

点赞数 29

CC 4.0 BY-SA版权

分类专栏： java-ai 文章标签： java spring spring boot rag 大模型人工智能 gpt

本文链接：https://blog.youkuaiyun.com/qq_21880261/article/details/148516551

java-ai 专栏收录该内容

8 篇文章

订阅专栏

文章目录

第八章 Spring AI实现RAG

第八章 Spring AI实现RAG

8.1 概述

8.1.1 向量化

向量数据库（Vector Database）是一种以数学向量的形式存储数据集合的数据库，通过一个数字列表来表示维度空间中的一个位置。在这里，向量数据库的功能是可以基于相似性搜索进行识别，而不是精准匹配。比如说在使用一个商城系统的向量数据库进行查询的时候，用户输入“北京”，其可能返回的结果会是 “中国、北京、华北、首都、奥运会” 等信息；输入“沈阳”，其返回结果可能会是“东北、辽宁、雪花、重工业”等信息。当然，返回的信息取决于向量数据库中存在的数据。用户可以通过参数的设置来限定返回的情况，进而适配不同的需求。
嵌入模型（Embedding Model）和向量数据库（Vector Database/Vector Store）是一对亲密无间的合作伙伴，也是 AI 技术栈中紧密关联的两大核心组件，两者的协同作用构成了现代语义搜索、推荐系统和 RAG（Retrieval Augmented Generation，检索增强生成）等应用的技术基础。

8.1.2 RAG

1 RAG的基本概念

RAG，全称 Retrieval-Augmented Generation ，中文叫做检索增强生成。RAG是一种结合了检索系统和生成模型的新型技术框架，其主要目的有：

利用外部知识库
帮助大模型生成更加准确、有依据、最新的回答

通过使用RAG，解决了传统LLM存在的两个主要问题：

知识局限性：LLM的知识被固定在训练数据中，无法知道最新消息。
幻觉现象：LLM有时候会编造出并不存在的答案。

通过检索外部知识，RAG让模型突破了知识局限性，也让LLM（大语言模型）的幻觉现象得到解决。

2 RAG的使用场景

RAG技术可以用于多种应用场景，根据不同的知识库与提示词，适配不同的需求。下面是一些常见的典型使用场景

企业内部知识问答
- 需求：员工需要查询公司规章制度、流程文档、技术手册。
- RAG方案：
  - 把企业文档库作为检索源。
  - 用户提问时，检索相关文档段落。再由模型总结回答
金融/法律领域应用
- 需求：解答合规、财税、法律问题，要求答案严谨。
- RAG方案：
  - 检索法条、案例、内部政策文档。
  - 基于检索到的条款生成规范回答
电商/客服智能助理
- 需求：自动回答用户关于商品、物流、售后等问题
- RAG方案
  - 检索商品知识库、FAQ文档
  - 给出准确、即时的答复
医疗健康领域
- 需求：为患者或医生提供疾病知识、药物信息、医院信息、诊疗方案
- RAG方案
  - 检索医疗文献、医院文档、指南资料
  - 给出专业、可靠的医学服务

3 RAG工作流程概述

第一，用户输入问题

用户在输入窗口输入自己的问题，这一数据被接收，并作为后续处理的查询入口

例如：用户提问

“我的智能手表出现蓝牙连接问题，怎么办？”

第二，问题向量化

根据用户初始输入的问题，调用Embedding模型，将问题转换为高维向量，以便于后续的想来那个相似度检索。

文本："我的智能手表出现蓝牙连接问题，怎么办？"
→ 向量：[0.123, 0.582, ..., 0.001]

第三，向量数据库检索

系统会连接到一个向量数据库（如FAISS、Milvus、Pinecone、Weaviate）。然后用刚才生成的问题向量，检索知识库中与之最相似的文档片段。

当检索的时候，常见的检索参数包括：

Tok-K ：检索最相关的K条记录
相似度阈值：控制检索到内容的相关性

最后输出的结果往往是K条知识片段

1. "蓝牙连接问题通常可以通过重启设备和重新配对解决。"
2. "如果手表固件版本较旧，请更新到最新版本以兼容蓝牙。"
3. "某些环境下，如电磁干扰，也会导致连接失败。"

第四，构建上下文

这一阶段需要组织提示词（Prompt），让LLM更好地理解背景信息。

这一部分包括：

系统提示词（System Prompt）

提前告诉LLM需要遵循的行为规范，比如

你是一个专业的智能手表客服助理。请基于提供的背景资料，准确回答用户的问题。如果资料中没有明确答案，请如实告诉用户而不是编造。

系统提示词可以有效地设定模型角色、控制回答风格、防止幻觉

构造最终输入（Final Prompt）

一般会结合以上内容，按照如下格式进行组织

【背景资料】
1. 蓝牙连接问题通常可以通过重启设备和重新配对解决。
2. 如果手表固件版本较旧，请更新到最新版本以兼容蓝牙。
3. 某些环境下，如电磁干扰，也会导致连接失败。

【用户问题】
我的智能手表出现蓝牙连接问题，怎么办？

【回答要求】
请结合以上资料，用简洁明了的方式回答用户的问题。如果答案无法直接从资料中找到，请礼貌告知用户。

第五，调用LLM

将构造好的Prompt提交给LLM（比如Deepseek、Qwen、GPT-4o、Claude等）

模型读取检索到的内容和问题
组织自然、连贯、准确的回答

生成结果示例：

“您好！ 根据我们的资料，您可以尝试重启智能手表并重新进行蓝牙配对。如果问题仍未解决，请检查手表固件是否为最新版本。如处于高电磁干扰环境，也可能影响连接质量，建议更换使用环境。”

第六，返回最终回答给用户

最终系统将生成的回答返回前端，展示给用户。

总结：

在RAG工作时，其运行流程大致为：

用户输入问题
问题向量化
向量数据库检索
构建上下文（含系统提示词）
携带检索内容，调用大模型进行回答
返回最终答案给用户

8.2 Spring AI 实现基本 RAG 流程

8.2.1 创建配置类

@Configuration
public class RagConfig {

    @Bean
    ChatClient chatClient(ChatClient.Builder builder) {
        return builder.defaultSystem("你将作为一名Java开发语言的专家，对于用户的使用需求作出解答")
                .build();
    }

    @Bean
    VectorStore vectorStore(EmbeddingModel embeddingModel) {
        SimpleVectorStore simpleVectorStore = SimpleVectorStore.builder(embeddingModel)
                .build();

        // 生成一个说明的文档
        List<Document> documents = List.of(
                new Document("产品说明:名称：Java开发语言\n" +
                        "产品描述：Java是一种面向对象开发语言。\n" +
                        "特性：\n" +
                        "1. 封装\n" +
                        "2. 继承\n" +
                        "3. 多态\n"));
        simpleVectorStore.add(documents);
        return simpleVectorStore;
    }

}

通过这个配置类，完成以下内容：

1、配置 ChatClient 作为 Bean，其中设置系统默认角色为Java开发语言专家，负责处理用户查询并生成回答向量存储配置。

2、初始化 SimpleVectorStore，加载Java开发语言说明文档，将文档转换为向量形式存储。

8.2.2 编写Controller

@Autowired
private ChatClient dashScopeChatClient;

@Autowired
private VectorStore vectorStore;

@GetMapping(value = "/chat", produces = "text/plain; charset=UTF-8")
public String generation(String userInput) {
    // 发起聊天请求并处理响应
    return dashScopeChatClient.prompt()
            .user(userInput)
            .advisors(new QuestionAnswerAdvisor(vectorStore))
            .call()
            .content();
}