大模型系列——关于在RAG检索增强中文档处理的解决方案
在大模型应用领域中——RAG技术应该属于一项基础技术,不论做什么业务基本都离不开RAG的存在;但RAG技术属于典型的入门五分钟,想做好却需要花费大量时间和精力,以及成本。
所以,今天我们就来讨论一下RAG技术在企业应用中的解决方案,既要考虑技术问题,也要考虑成本问题。
怎么做好RAG
RAG技术从整体上来说主要分为两块,一块是文档预处理,也就是把文档处理成向量格式,但需要尽量保证文档的语义完整性;其次,就是检索召回,具体要求是能快速并准确地召回需要的数据。
但从实践的角度来看,目前对RAG影响最大的是第一步——文档预处理,文档处理的质量越高,召回的精准度就越高。其实这一点也很好理解,在一个有完善管理系统的图书馆里找书,肯定会比在一堆没人管理的书堆里找书要快,要好。
那在文档预处理这块,主要存在的难点是什么?
在文档处理领域,主要存在两种数据形式,结构化数据和非结构化数据;结构化数据主要以excel这种二维表的形式存在,其处理起来相对比较简单;而非结构化数据的格式就比较多,并且比较混乱,比如说txt,word,pdf,markdown,ppt等多种形式。
结构化数据今天我们就不讨论了,因为其比较简单;所以,我们今天主要讨论的是非结构化数据,就以word文档为例。
由于大模型有窗口上下文长