一文读懂RAG架构如何助力AI

转载于 2025-12-21 10:30:02 发布 · 1 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://01022.hk/zh/subnetmask.html

文章标签：

生活的本质在于取舍，RAG架构亦是如此。

【01】初识RAG

不知道大家在提问大模型的时候，有没有碰到过这种情况。

并不是每一个问题，它都能答上来。甚至有时候它会瞎编一些答案，一本正经地胡说八道。

这种情况，通常被称为大模型的幻觉。

因为大模型所有的认知，都是通过模型训练得来的。

恰巧你提的问题，在它的认知范围外，它就无法正确地回答你。

在早期，大模型遇到这种情况可能会分析得头头是道，但最终答非所问。但现在，它会实打实地回复它不知道。

比如用自己上线的网站：楼里，我让大模型介绍下，它明确回复不知道。

虽然比起之前的瞎编好上不少，但是它确实没解决实际的问题。

但是当我将网站的介绍文案和问题一起丢给大模型时，它的回复是这样的。

其实不难理解，无非就是把问题和网站介绍一起交给大模型。它会分析网站的介绍，然后结合提出的问题，找到用户想要的答案。

如果讲得专业一点，RAG就是将知识库与大模型结合的服务。能够快速从大量的信息中搜寻、分析、生成最终的答案，为用户提供精准的信息。

这种知识库体系可以被运用在企业内部，如建立企业内部文档、考勤制度或规范、数据、业务经验等等。建立好内部的知识体系，让大模型可以精确分析数据，借鉴大模型的能力，员工可快速查阅相关内容。

但是讲得不专业一些，就是先从你的知识库里查资料，再让大模型照着资料回答问题。

【02】RAG架构

那么问题来了：怎么判断知识库中的一段文字和用户提出的问题有关联？

这就要引入一个新的概念：Embedding模型。

Embedding模型的输入也是一段文字，与大模型有所区别的是，它的输出是一组固定长度的数组。

简单的理解就是：预先把内容的文本有损压缩成一串数字坐标，用户提出的问题也会压缩成坐标。最终可以通过计算坐标之间的距离，来判断问题和内容是否相关。

现在输入几个问题：

1、七号楼是独立开发吗？

2、七号楼是开发者吗？

3、七号楼是程序员吗?

4、海报上的字体要大一些吗？

如果用人的思维非常简单就可以回答，前三个问题比较类似，并且答案是肯定的。最后一个问题跟前面的问题毫无关系，并且答案是否定的。

但是换成Embedding模型的角度，事情就变得复杂了，它只能按照既定的套路去解答问题。

从上面的描述可知，文本信息最终都会被压缩成坐标。由此我们画一个简单的二维坐标系来展示。（真实的Embedding坐标系肯定不止二维，如OpenAI的text-embedding-3-small是1536个维度）

三条关于七号楼信息的内容在坐标系上距离非常贴近，一条关于海报信息的内容则距离非常远。

当用户提问：七号楼是独立开发吗？七号楼是开发者吗？七号楼是程序员吗？

这些问题最终也会被映射到这个坐标系上，并且很贴近坐标系的左上方，然后通过计算拿到与问题最贴近的一些答案，将问题和这些答案当做上下文，统一交给大模型去处理，最后生成用户想要的答案。

反之，用户提问：海报上的字体要大一些吗？

这个问题会去往坐标系的右下角，然后找到“海报上的字体要小一些”这样的答案，也一并交给大模型。

按照这样的流程，大模型最终会拿到和用户问题强关联的内容，经过一系列的分析，产生用户想要的答案。

由此，RAG架构总结如下，它包含：Embedding模型、向量检索（坐标系）、上下文构建、大模型生成答案。

【03】切块和向量库

为了解释清楚RAG架构，上面所说的场景其实都是理想状态，真实情况要复杂很多。

回到最初的场景，楼里网站的介绍，其实文档是很长的。

如果将整个文档的内容只映射成一个坐标，那么文档和问题一起提交给大模型的时候，那产生的token... 不需要我多说了吧。

所以，就需要对整篇文档进行分段处理，批量向量化，专业词汇叫：Chunking，意思就是切块。

切块：顾名思义就是将文本内容进行分割。

做完文本切块后，还需要将每段的原始文本和每个向量坐标一一对应起来，这个对应关系需要被保存起来。

传统的数据库也能存对应关系，但是做不了向量检索。

于是专门为这类场景定制了向量数据库。它可以检索出离问题向量最近的一些向量数据。常见的向量数据库有：Milvus、Qdrant、Pinecone、PostgreSQL+pgvector等等。

于是整个流程就可以丝滑地串起来了

但是，整个RAG还存在缺陷：比如整篇知识库内容怎么分块？按段落、按句子、还是按篇幅？如果内容一长，并且提出的问题比较复杂，貌似各种切块方式都不合适了。

不过我有一些不成熟的想法：是不是可以训练一个专门切块的大模型，或者直接让大模型参与分块。

额，好吧，还是继续等等，看看后续有没有合适的方案去解决这些问题。

【04】总结

如果让事情回归生活，那么本质就是在做取舍。把与问题不相关的舍弃，留下相关的部分。

就像今年，我舍弃了奋斗十年的职场，转身独立开发。这就是主动选择想要的生活方式和想要专注的方向。

又或者微信通讯录中密密麻麻的好友，最终能打开聊天框的寥寥无几。

有些聊天记录，还停留在那个搞笑的表情包，甚至是一句你好。

互联网十年民工，现在转身独立开发者。 | 公众号-主页 | 小红书-主页 | 抖音-主页 | Git仓库-主页 |

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。