三、知识库
我们在知识库菜单,先创建一个新的知识库。
创建后可以看到,左侧有三个菜单。
第一个是数据集:后续是你要上传文件的地方。
第二个是检索测试:可以对你构建的知识库进行简单的搜索测试。
第三个:也是最最最重要,而又最最最复杂的,就是创建知识库时的各种设置。这里如果你没有RAG的基础,强烈建议你去补一下,否则这个菜单很难用明白。所以针对于RAGFlow这个产品,如果别人创建好了知识库你只是去使用,那没问题。如果你是要创建知识库的话,那一定需要RAG和大模型这些方向的知识,否则用起来会困难些。
配置中的基础部分:
我们先来对配置中的基础部分进行说明,包含了【知识库名称】、【知识库图片】、【描述】和【权限】这四部分,其中前三部分很简单,不说明了,下面重点说一些【权限】这部分。
我们可以看到,权限这部分,除了对用户权限进行管理之外,还可以对每个用户的操作权限,是否可以对该知识库进行读、写和管理进行设置。
配置中的文档解析部分:
这一部分是最复杂,也是最核心的部分。首先先来看两个最固定的部分【PDF解析器】和【嵌入模型】。
嵌入模型:这部分没啥多说的,就是我们配置好的模型厂商下Embedding模型,选一个即可。但要注意,这里有个坑,如果你知识库创建后检索时报错,那有可能是embedding过程中造成的,例如我之前选择了下面百度的bge-large-zh这个模型,最后检索时会报一二维向量不匹配的错误,然后换成阿里的text-embedding-v3后重新向量化一遍就好了。
PDF解析器:这个看名字就知道了,专对PDF格式处理才起作用。它这下面也有几个选项,除了你自添加的Img2txt模型外,默认会提供DeepDoc和Native两个模型,选择Native会加快Embedding速度,因为只会提取PDF纯文本内容,如果还想提取PDF中图片中的文字,可以选择DeepDoc或者你自添加的Img2txt模型,但是会增加Embedding解析时间。
如果大家不知道如何使用,可以把鼠标移到每个项目的问号❓上,可以显示该项目的含义和使用方法。例如你不知道PDF解析器是干嘛的,可以通过这种方式快速查看和打开提供的官方地址查看更详细的用法。
切片方法:这里是RAGFlow整体工具最核心的地方了。也是RAGFlow可以成为最接近企业级知识库的原因,因为它提供了各种不同的切片方法,可支持对各种不同的文档类型进行切片。
默认切片的选项是【General】,它的使用方法和切片配置项对应的是下面绿色的部分。
然后我们换一个其他的,换成【Q&A】这种切片方式,会发现,它的使用方法和切片配置项都会改变,对应下面绿色的部分。
让我们再换一个,切片方法换成了【Manual】,发现又变化了,这次可以支持更复杂的PDF格式了。
所以到这里,我们也可体会到了,它的强大之处在于,针对不同的使用场景,提供了多种切片方法。每个切片方法都有自己对应的切片规则、使用方法和支持的文档类型。尤其,有的切片方法下还支持知识图谱,可以使你的知识库检索更佳精准(GraphRAG稍微复杂些,大家可以私下里查一下,这里不具体解释了)。每个具体切片类型的使用方法,大家可以参照官方文档即可。下面主要介绍下都具体支持哪些切片类型:
1、General:最通用的一种切片方法,适用于大多数场景,也支持OCR。支持的格式也是最多的,从传统的PDF、Doc、Excel、PPT到IMAGE格式和HTML等都支持。
2、Q&A:主要是针对知识问答的场景,需要构建Q&A键值对,支持的格式只有Excel、CSV和TXT三种。
3、Resume:主要适用于个人简历搜索的场景,左右结构,支持的格式只有DOCX、PDF和TXT。
4、Manual:支持复杂的PDF解析场景,适用于文档分层较多且格式复杂多变的场景,现在也只支持PDF格式。
5、Table:这个没啥多解释的,就是针对表格解析的场景。支持的格式以Excel和CSV为主,也支持TXT。
6、Paper:主要是支持论文解析场景,格式也只支持PDF。
7、Book:这个也没啥多说的,针对书籍进行解析,现在支持Word、PDF和TXT格式。
8、Laws:这个也没啥多说的,针对法律文件进行解析,现在支持Word、PDF和TXT格式。
9、Presentation:这个主要是针对PPT幻灯片进行切片的场景,现在支持PPT和PDF格式两种。
10、One:这个支持你的文档比较简单,只有整体一部分的场景,例如单页那种文档。现在支持Word、Excel、PDF和TXT格式。
11、Tag:这个从名字上就可以看出来,主要是针对标签的场景。现在支持Excel、CSV和Txt格式。这里要注意,Tag很特殊,使用“标签”作为分块方法的知识库不参与RAG检索过程,标签集中的每个文本分块是都是相互独立的标签和标签描述的文本对。
【数据集】菜单部分
我们切换到【数据集】菜单,去上传我们的知识库文件,进行解析。这里我们可以选择创建时就进行解析,或者上传时不解析,稍后进行解析,都可以。
大家可以看到现在是解析的状态,还有进度提示。这一步会非常的慢,大家不用在这个页面一直等,可以去干别的,每次进入到这个页面都可以看到实时解析的状态。
解析成功。
【检索测试】菜单部分
解析成功后,我们就可以进入到【检索测试】菜单进行测试了,我在测试内容中输入了【打造 AI 驱动的企业级降本增效之路】,可以看到检索出了结果。下面的例子我没有选择Rerank模型,如果想让检索效果更好,把相似度最高的结果排在最前面,可以选择Rerank模型。
总结,到这里,RAGFlow最核心的【知识库】功能就讲解完了,大家可以结合自己的业务场景,选择合适的切片方法和对应进行参数配置(必要时可以考虑构建知识图谱),更好的对文件进行向量化,从而后续进行更精确的检索。
聊天
现在到了最后一个大的菜单了:【聊天】。之前上面解释过它和【搜索】菜单的区别,下面来看看【聊天】如何使用。
我们进入聊天后,要首先新建一个助理:【聊天】->【新建助理】。在新建助理中的【助理设置】选项卡中,我们要填写【助理名称】和最后的选择一个【知识库】。我这里选择了一个之前创建过的人工智能资料解析知识库。
在【新建助理】中切换到【提示引擎】这个选项卡,在其中必须填写系统提示词,这里我们用默认的,里面引用到了一个knowledge参数,所以一定要确保把最底部的变量中有knowledge参数并且是启用状态。
最后,在【新建助理】中切换到【模型设置】这个选项卡,必须选择一个聊天模型即可,这里我选择了deepseek-chat,其他参数不变,然后点击【确定】进行保存。
下面,我们就可以进行测试了,我们在刚才新建的【clx-聊天助手】菜单中,点击【+】号新建一个会话,然后输入你要查询的内容,例如我下面输入的:第一章讲了什么。然后键盘回车或点击最右下角【发送】按钮。
可以看到检索出了结果,并且给出了引用的知识库文件。
这一部分最后也做个总结,【聊天】这一步,就是我们传统的Chatbot,提前设置选定知识库(可以选择一个,也可以选择多个),然后选定一个Chat的对话模型和设定好提示词后,进行提问对话皆可。其中里面检索参数这里都用默认的,大家后续可以根据实际需求设置,如果不知道这些参数干嘛用的,还是建议先掌握一下RAG基础,对应的参考每个项目的问号❓看官方文档去了解每一个参数项都是干嘛的。
到这里,RAGFlow的基础使用就讲完了!
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方优快云官方认证二维码
,免费领取【保证100%免费
】