RAGFlow解析方法说明

目录

General分块

Q&A 分块

Resume分块

Manual分块

Table分块

Paper分块

Book分块

Laws 分块

Presentation 分块

One分块

Tag分块

General分块

通用分块支持格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML

此方法将简单的方法应用于块文件:

  • 系统将使用视觉检测模型将连续文本分割成多个片段。
  • 接下来,这些连续的片段被合并成Token数不超过“Token数”的块。

Q&A 分块

问答分块支持 excel 和 csv/txt 文件格式。

  • 如果文件是 excel 格式,则应由两个列组成 没有标题:一个提出问题,另一个用于答案。
  • 如果文件是 csv/txt 格式 以 UTF-8编码用TAB作分开问题和答案的定界符。

未能遵循上述规则的文本行将被忽略,并且 每个问答对将被认为是一个独特的部分。

Resume分块

简历分块,支持的文件格式为DOCXPDFTXT

在选择此分块方法后,ragflow会将上传的简历解析成一个结构化数据。

Manual分块

手册仅支持PDF。需要调大tokens

我们假设手册具有分层部分结构。 我们使用最低的部分标题作为对文档进行切片的枢轴。 因此,同一部分中的图和表不会被分割,并且块大小可能会很大。

Table分块

表格分块,支持EXCELCSV/TXT格式文件。

以下是一些提示:

  • 对于 csv 或 txt 文件,列之间的分隔符为 TAB
  • 第一行必须是列标题。
  • 列标题必须是有意义的术语,以便我们的大语言模型能够理解。 列举一些同义词时最好使用斜杠_'/'_来分隔,最好使用方括号枚举值,例如 'gender/sex(male,female)'.
  • 表中的每一行都将被视为一个块。

以下是标题的一些示例:

  • 供应商/供货商TAB颜色(黄色、红色、棕色)TAB性别(男、女)TAB'尺码(M、L、XL、XXL)
  • 姓名/名字TAB电话/手机/微信TAB最高学历(高中,职高,硕士,本科,博士,初中,中技,中 专,专科,专升本,MPA,MBA,EMBA

Paper分块

论文分块,仅支持PDF文件。LLM会将论文将按其部分进行切片,例如_摘要、1.1、1.2_等。

这样做的好处是LLM可以更好的概括论文中相关章节的内容, 产生更全面的答案,帮助读者更好地理解论文。 缺点是它增加了 LLM 对话的背景并增加了计算成本, 所以在对话过程中,你可以考虑减少‘topN’的设置。

Book分块

书籍分块,支持的文件格式为DOCXPDFTXT

由于一本书很长,并不是所有部分都有用,如果是 PDF, 请为每本书设置_页面范围_,以消除负面影响并节省分析计算时间。

Laws 分块

法律文件分块,支持的文件格式为DOCXPDFTXT

法律文件有非常严格的书写格式。 我们使用文本特征来检测分割点。

chunk的粒度与'ARTICLE'一致,所有上层文本都会包含在chunk中。

Presentation 分块

演示稿分块,支持的文件格式为PDFPPTX

每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。您上传的所有PPT文件都会使用此方法自动分块,无需为每个PPT文件进行设置。

One分块

单一文档,支持的文件格式为DOCX、EXCEL、PDF、TXT

对于一个文档,它将被视为一个完整的块,根本不会被分割。

如果你要总结的东西需要一篇文章的全部上下文,并且所选LLM的上下文长度覆盖了文档长度,你可以尝试这种方法。

Tag分块

使用“标签”作为分块方法的知识库应该被其他知识库使用,以将标签添加到其块中,对这些块的查询也将带有标签。

使用“标签”作为分块方法的知识库应该参与 RAG 过程。

此知识库中的块是标签的示例,它们演示了整个标签集以及块和标签之间的相关性。

此块方法支持EXCELCSV/TXT文件格式。

如果文件为Excel格式,则它应该包含两列无标题:一列用于内容,另一列用于标签,内容列位于标签列之前。可以接受多个工作表,只要列结构正确即可。

如果文件为 CSV/TXT 格式,则必须使用 UTF-8 编码并以 TAB 作为分隔符来分隔内容和标签。

在标签列中,标签之间使用英文 逗号

不符合上述规则的文本行将被忽略,并且每对文本将被视为一个不同的块

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值