创新实训项目中期总结
一、项目整体进展
本项目基于Haystack框架构建生产级RAG(检索增强生成)系统,覆盖技术选型、核心功能开发、中文优化、服务器部署、前端交互全流程。通过五周迭代,实现以下核心成果:
- 技术架构分析:完成BM25检索、语义排序、Pipeline设计的深度解析。
- 功能验证:集成DeepSeek API,实现基础问答与RAG功能,发现BM25中文支持问题。
- 多维优化:引入jieba分词、流式输出、ChromaDB持久化存储,显著提升中文场景性能。
- 生产部署:完成Docker容器化部署与依赖配置,支持跨平台运行。
- 交互升级:基于FastAPI+SSE实现流式输出,搭建动态渲染前端界面。
二、分阶段进展与关键技术
1. 第一阶段(2025.04.02):Haystack技术架构分析
- 目标:拆解框架核心模块,明确技术路线。
- 关键技术:
- BM25检索算法:优化长文本匹配,公式如下:
Score(D,Q)=∑i=1nIDF(qi)⋅f(qi,D)⋅(k1+1)f(qi,D)+k1⋅(1−b+b⋅∣D∣avgdl)Score(D, Q) = \sum_{i=1}^n IDF(q_i) \cdot\frac{ f(q_i, D) \cdot (k_1 + 1)}{ f(q_i, D) + k_1 \cdot (1 - b + b \cdot\frac{ |D|} { avg \text{dl}})}Score(D,Q)=i=1∑nIDF(qi)⋅f(qi,D)+k1⋅(1−b+b⋅avgdl∣D∣)f(qi,D)⋅(k
- BM25检索算法:优化长文本匹配,公式如下:

最低0.47元/天 解锁文章
1492

被折叠的 条评论
为什么被折叠?



