目录
General分块
通用分块支持格式为DOCX、EXCEL、PPT、IMAGE、PDF、TXT、MD、JSON、EML、HTML。
此方法将简单的方法应用于块文件:
- 系统将使用视觉检测模型将连续文本分割成多个片段。
- 接下来,这些连续的片段被合并成Token数不超过“Token数”的块。
Q&A 分块
问答分块支持 excel 和 csv/txt 文件格式。
- 如果文件是 excel 格式,则应由两个列组成 没有标题:一个提出问题,另一个用于答案。
- 如果文件是 csv/txt 格式 以
UTF-8编码
且用TAB
作分开问题和答案的定界符。
未能遵循上述规则的文本行将被忽略,并且 每个问答对将被认为是一个独特的部分。
Resume分块
简历分块,支持的文件格式为DOCX、PDF、TXT。
在选择此分块方法后,ragflow
会将上传的简历解析成一个结构化数据。
Manual分块
手册仅支持PDF。需要调大tokens
我们假设手册具有分层部分结构。 我们使用最低的部分标题作为对文档进行切片的枢轴。 因此,同一部分中的图和表不会被分割,并且块大小可能会很大。
Table分块
表格分块,支持EXCEL和CSV/TXT格式文件。
以下是一些提示:
- 对于 csv 或 txt 文件,列之间的分隔符为
TAB
。 - 第一行必须是列标题。
- 列标题必须是有意义的术语,以便我们的大语言模型能够理解。 列举一些同义词时最好使用斜杠_'/'_来分隔,最好使用方括号枚举值,例如 'gender/sex(male,female)'.
- 表中的每一行都将被视为一个块。
以下是标题的一些示例:
- 供应商/供货商
TAB
颜色(黄色、红色、棕色)TAB
性别(男、女)TAB'尺码(M、L、XL、XXL)
- 姓名/名字
TAB
电话/手机/微信TAB
最高学历(高中,职高,硕士,本科,博士,初中,中技,中 专,专科,专升本,MPA,MBA,EMBA
Paper分块
论文分块,仅支持PDF文件。LLM会将论文将按其部分进行切片,例如_摘要、1.1、1.2_等。
这样做的好处是LLM可以更好的概括论文中相关章节的内容, 产生更全面的答案,帮助读者更好地理解论文。 缺点是它增加了 LLM 对话的背景并增加了计算成本, 所以在对话过程中,你可以考虑减少‘topN’的设置。
Book分块
书籍分块,支持的文件格式为DOCX、PDF、TXT。
由于一本书很长,并不是所有部分都有用,如果是 PDF, 请为每本书设置_页面范围_,以消除负面影响并节省分析计算时间。
Laws 分块
法律文件分块,支持的文件格式为DOCX、PDF、TXT。
法律文件有非常严格的书写格式。 我们使用文本特征来检测分割点。
chunk的粒度与'ARTICLE'一致,所有上层文本都会包含在chunk中。
Presentation 分块
演示稿分块,支持的文件格式为PDF、PPTX。
每个页面都将被视为一个块。 并且每个页面的缩略图都会被存储。您上传的所有PPT文件都会使用此方法自动分块,无需为每个PPT文件进行设置。
One分块
单一文档,支持的文件格式为DOCX、EXCEL、PDF、TXT。
对于一个文档,它将被视为一个完整的块,根本不会被分割。
如果你要总结的东西需要一篇文章的全部上下文,并且所选LLM的上下文长度覆盖了文档长度,你可以尝试这种方法。
Tag分块
使用“标签”作为分块方法的知识库应该被其他知识库使用,以将标签添加到其块中,对这些块的查询也将带有标签。
使用“标签”作为分块方法的知识库不应该参与 RAG 过程。
此知识库中的块是标签的示例,它们演示了整个标签集以及块和标签之间的相关性。
此块方法支持EXCEL和CSV/TXT文件格式。
如果文件为Excel格式,则它应该包含两列无标题:一列用于内容,另一列用于标签,内容列位于标签列之前。可以接受多个工作表,只要列结构正确即可。
如果文件为 CSV/TXT 格式,则必须使用 UTF-8 编码并以 TAB 作为分隔符来分隔内容和标签。
在标签列中,标签之间使用英文 逗号。
不符合上述规则的文本行将被忽略,并且每对文本将被视为一个不同的块