Datawhale AI夏令营多模态RAG笔记

原创已于 2025-08-13 19:33:49 修改 · 174 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #笔记 #Datawhale AI夏令营

于 2025-08-09 21:57:37 首次发布

比赛网址：2025 iFLYTEK AI开发者大赛

Baseline 分析：

第一步，使用PyMuPDF库解析所有pdf文件，按页数分为chunk保存到json格式的文件中。然后将问题向量化，根据相似度从知识库中找到几个相似度高的chunk，输入到prompt中给llm产生回答。

尝试：

Baseline中只尝试了10个test，让baseline跑完所有的test，得到的分数为0.31321。我们得到了将近3分之1的分。在这里使用的是硅基流动的api跑Qwen3-8B模型，由于是免费的api，所以tpm只有50000，经常会遇到上限的情况，所以加入上限之后sleep30秒再重新从断点处开始跑。

后面尝试用mineru库来构成chunks，但是发现分数反而降低了，变成0.29645分。暂时没弄明白为什么变低。

尝试使用更大的top_k,结果发现分数降低了，大概原因应该是太多的chunk作为噪声干扰了模型的判断。加入了re-rank后发现分数有略微的提升，大概在0.01左右，当前为粗提取20个chunk后精提取5个chunk作为知识补充。