大模型系列——关于在RAG检索增强中文档处理的解决方案

猫猫姐

于 2025-08-05 21:13:38 发布

阅读量107

点赞数 4

CC 4.0 BY-SA版权

分类专栏：大模型文章标签：人工智能大模型 rag

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_84052244/article/details/149946321

大模型专栏收录该内容

260 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

大模型系列——关于在RAG检索增强中文档处理的解决方案

在大模型应用领域中——RAG技术应该属于一项基础技术，不论做什么业务基本都离不开RAG的存在；但RAG技术属于典型的入门五分钟，想做好却需要花费大量时间和精力，以及成本。

所以，今天我们就来讨论一下RAG技术在企业应用中的解决方案，既要考虑技术问题，也要考虑成本问题。

怎么做好RAG

RAG技术从整体上来说主要分为两块，一块是文档预处理，也就是把文档处理成向量格式，但需要尽量保证文档的语义完整性；其次，就是检索召回，具体要求是能快速并准确地召回需要的数据。

但从实践的角度来看，目前对RAG影响最大的是第一步——文档预处理，文档处理的质量越高，召回的精准度就越高。其实这一点也很好理解，在一个有完善管理系统的图书馆里找书，肯定会比在一堆没人管理的书堆里找书要快，要好。

那在文档预处理这块，主要存在的难点是什么？

在文档处理领域，主要存在两种数据形式，结构化数据和非结构化数据；结构化数据主要以excel这种二维表的形式存在，其处理起来相对比较简单；而非结构化数据的格式就比较多，并且比较混乱，比如说txt，word，pdf，markdown，ppt等多种形式。

结构化数据今天我们就不讨论了，因为其比较简单；所以，我们今天主要讨论的是非结构化数据，就以word文档为例。

由于大模型有窗口上下文长

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。