Tips:
本文章只是简单介绍了一下HiQA的三步走流程,对于具体的如果针对表格、图片做相应的处理,还需要深入原论文。
paper link: https://ar5iv.labs.arxiv.org/html/2402.01767
code: https://github.com/TebooNok/HiQA?tab=readme-ov-file
Motivation
The standard RAG struggles to address the massive indistinguishable documents problem.
标准的RAG流程无法解决大量具有相似结构的多文档问答问题。需要加入层级信息。
目标
解决 retrieval problem for multi-documents with similar structures.
核心方法(三步走)
- Markdown Formatter (MF)
- Hierarchical Contextual Augmentor (HCA)
- Multi-Route Retriever (MRR)