Spring AI与RAG技术实战：构建企业级智能文档问答系统

最新推荐文章于 2025-12-01 19:45:15 发布

原创最新推荐文章于 2025-12-01 19:45:15 发布 · 346 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#Spring AI #RAG #Java #微服务 #人工智能 #向量数据库 #语义检索

Java 专栏收录该内容

873 篇文章

订阅专栏

Spring AI与RAG技术实战：构建企业级智能文档问答系统

引言

随着人工智能技术的快速发展，企业对于智能化文档处理的需求日益增长。传统的文档管理系统往往只能提供简单的关键词搜索，无法理解用户的自然语言查询意图。Spring AI结合RAG（检索增强生成）技术，为企业构建智能文档问答系统提供了全新的解决方案。

技术架构概述

核心组件

Spring AI框架：提供统一的AI模型接入接口
RAG架构：检索增强生成技术栈
向量数据库：Milvus/Chroma/Redis用于向量存储
Embedding模型：OpenAI/Ollama等文本向量化模型
语义检索：基于向量相似度的智能搜索

系统架构设计

@Configuration
@EnableAIServices
public class RAGConfiguration {
    
    @Bean
    public VectorStore vectorStore() {
        return new MilvusVectorStore("localhost", 19530);
    }
    
    @Bean
    public EmbeddingModel embeddingModel() {
        return new OpenAiEmbeddingModel("your-api-key");
    }
    
    @Bean
    public ChatModel chatModel() {
        return new OpenAiChatModel("your-api-key");
    }
}

实现步骤详解

1. 文档加载与预处理

首先需要实现文档的加载和预处理功能：

@Service
public class DocumentProcessor {
    
    @Autowired
    private EmbeddingModel embeddingModel;
    
    public List<Document> processDocuments(List<File> files) {
        List<Document> processedDocs = new ArrayList<>();
        
        for (File file : files) {
            String content = extractContent(file);
            List<String> chunks = chunkContent(content);
            
            for (String chunk : chunks) {
                float[] embedding = embeddingModel.embed(chunk);
                Document doc = new Document(chunk, embedding, file.getName());
                processedDocs.add(doc);
            }
        }
        
        return processedDocs;
    }
    
    private String extractContent(File file) {
        // 实现不同格式文件的文本提取
        if (file.getName().endsWith(".pdf")) {
            return PdfExtractor.extract(file);
        } else if (file.getName().endsWith(".docx")) {
            return DocxExtractor.extract(file);
        }
        return "";
    }
    
    private List<String> chunkContent(String content) {
        // 文本分块处理，每块约500字符
        return TextChunker.chunk(content, 500);
    }
}

2. 向量存储与索引

使用Milvus向量数据库存储文档向量：

@Service
public class VectorStoreService {
    
    @Autowired
    private VectorStore vectorStore;
    
    public void storeDocuments(List<Document> documents) {
        List<float[]> embeddings = documents.stream()
            .map(Document::getEmbedding)
            .collect(Collectors.toList());
        
        List<String> contents = documents.stream()
            .map(Document::getContent)
            .collect(Collectors.toList());
        
        vectorStore.addVectors(embeddings, contents);
    }
    
    public List<String> searchSimilarDocuments(String query, int topK) {
        float[] queryEmbedding = embeddingModel.embed(query);
        return vectorStore.searchSimilar(queryEmbedding, topK);
    }
}

3. RAG检索增强生成

实现RAG的核心逻辑：

@Service
public class RAGService {
    
    @Autowired
    private VectorStoreService vectorStoreService;
    
    @Autowired
    private ChatModel chatModel;
    
    public String answerQuestion(String question) {
        // 1. 检索相关文档片段
        List<String> relevantDocs = vectorStoreService.searchSimilarDocuments(question, 5);
        
        // 2. 构建提示词
        String context = buildContext(relevantDocs);
        String prompt = buildPrompt(question, context);
        
        // 3. 生成回答
        return chatModel.generate(prompt);
    }
    
    private String buildContext(List<String> documents) {
        StringBuilder context = new StringBuilder();
        context.append("基于以下文档内容回答问题：\n\n");
        
        for (int i = 0; i < documents.size(); i++) {
            context.append("文档片段").append(i + 1).append(":\n");
            context.append(documents.get(i)).append("\n\n");
        }
        
        return context.toString();
    }
    
    private String buildPrompt(String question, String context) {
        return String.format("""
            你是一个专业的文档问答助手。请根据提供的文档内容回答用户的问题。
            
            %s
            
            问题：%s
            
            要求：
            1. 回答要准确基于提供的文档内容
            2. 如果文档中没有相关信息，请明确说明
            3. 回答要简洁明了
            4. 避免编造不存在的信息
            
            请回答：
            """, context, question);
    }
}

4. REST API接口

提供Web服务接口：

@RestController
@RequestMapping("/api/rag")
public class RAGController {
    
    @Autowired
    private RAGService ragService;
    
    @PostMapping("/ask")
    public ResponseEntity<AnswerResponse> askQuestion(@RequestBody QuestionRequest request) {
        try {
            String answer = ragService.answerQuestion(request.getQuestion());
            return ResponseEntity.ok(new AnswerResponse(answer));
        } catch (Exception e) {
            return ResponseEntity.status(HttpStatus.INTERNAL_SERVER_ERROR)
                .body(new AnswerResponse("系统繁忙，请稍后重试"));
        }
    }
    
    @PostMapping("/upload")
    public ResponseEntity<String> uploadDocuments(@RequestParam("files") MultipartFile[] files) {
        try {
            // 处理上传的文档
            documentProcessor.processDocuments(files);
            return ResponseEntity.ok("文档上传成功");
        } catch (Exception e) {
            return ResponseEntity.status(HttpStatus.INTERNAL_SERVER_ERROR)
                .body("文档上传失败");
        }
    }
}

高级特性实现

1. 对话记忆管理

实现多轮对话的上下文记忆：

@Service
public class ConversationMemoryService {
    
    private final Map<String, List<Message>> conversations = new ConcurrentHashMap<>();
    
    public void addMessage(String sessionId, String role, String content) {
        conversations.computeIfAbsent(sessionId, k -> new ArrayList<>())
            .add(new Message(role, content, System.currentTimeMillis()));
        
        // 保持最近10轮对话
        trimConversation(sessionId, 10);
    }
    
    public List<Message> getConversationHistory(String sessionId) {
        return conversations.getOrDefault(sessionId, Collections.emptyList());
    }
    
    private void trimConversation(String sessionId, int maxMessages) {
        List<Message> messages = conversations.get(sessionId);
        if (messages != null && messages.size() > maxMessages) {
            conversations.put(sessionId, 
                messages.subList(messages.size() - maxMessages, messages.size()));
        }
    }
}

2. AI幻觉检测与处理

减少模型产生错误信息的风险：

@Service
public class HallucinationDetector {
    
    @Autowired
    private VectorStoreService vectorStoreService;
    
    public boolean detectHallucination(String answer, String originalQuestion) {
        // 检查回答是否与检索到的文档相关
        List<String> relevantDocs = vectorStoreService.searchSimilarDocuments(answer, 3);
        
        // 计算答案与文档的相似度
        double similarity = calculateSimilarity(answer, relevantDocs);
        
        return similarity < 0.6; // 相似度阈值
    }
    
    private double calculateSimilarity(String text, List<String> references) {
        // 实现文本相似度计算
        return SimilarityCalculator.cosineSimilarity(text, references);
    }
}

3. 性能优化策略

@Configuration
public class CacheConfiguration {
    
    @Bean
    public CacheManager cacheManager() {
        CaffeineCacheManager cacheManager = new CaffeineCacheManager();
        cacheManager.setCaffeine(Caffeine.newBuilder()
            .expireAfterWrite(10, TimeUnit.MINUTES)
            .maximumSize(1000));
        return cacheManager;
    }
}

@Service
public class CachedRAGService {
    
    @Autowired
    private RAGService ragService;
    
    @Cacheable(value = "answers", key = "#question")
    public String getCachedAnswer(String question) {
        return ragService.answerQuestion(question);
    }
}

部署与运维

Docker容器化部署

FROM openjdk:17-jdk-slim

WORKDIR /app

COPY target/rag-system.jar app.jar

EXPOSE 8080

ENTRYPOINT ["java", "-jar", "app.jar"]

Kubernetes部署配置

apiVersion: apps/v1
kind: Deployment
metadata:
  name: rag-system
spec:
  replicas: 3
  selector:
    matchLabels:
      app: rag-system
  template:
    metadata:
      labels:
        app: rag-system
    spec:
      containers:
      - name: rag-app
        image: rag-system:latest
        ports:
        - containerPort: 8080
        resources:
          requests:
            memory: "1Gi"
            cpu: "500m"
          limits:
            memory: "2Gi"
            cpu: "1000m"
---
apiVersion: v1
kind: Service
metadata:
  name: rag-service
spec:
  selector:
    app: rag-system
  ports:
  - port: 80
    targetPort: 8080

监控与日志

集成Prometheus和Grafana进行系统监控：

@Configuration
public class MonitoringConfig {
    
    @Bean
    public MeterRegistry meterRegistry() {
        return new PrometheusMeterRegistry(PrometheusConfig.DEFAULT);
    }
    
    @Bean
    public TimedAspect timedAspect(MeterRegistry registry) {
        return new TimedAspect(registry);
    }
}

@Service
public class MonitoringService {
    
    private final Counter questionCounter;
    private final Timer responseTimer;
    
    public MonitoringService(MeterRegistry registry) {
        questionCounter = registry.counter("rag.questions.total");
        responseTimer = registry.timer("rag.response.time");
    }
    
    public void recordQuestion() {
        questionCounter.increment();
    }
    
    public Timer.Sample startTiming() {
        return Timer.start();
    }
    
    public void stopTiming(Timer.Sample sample, String status) {
        sample.stop(responseTimer);
    }
}