ragflow-PageRank是什么?

好的!我来进一步细化PageRank在RAGFlow中的原理,用更通俗的方式解释清楚,让小白也能明白。

  1. RAGFlow中的PageRank:简单类比
    想象你在一个社交派对上,想要找到一个最了解某个话题(比如“如何养猫”)的人。传统的方法是随机找几个人,问他们是否知道相关的内容。但这种方法可能效率不高,因为你可能会错过那些真正了解这个话题的人。
    PageRank的作用就像一个“社交达人”,它会帮你找到那些真正有影响力的人。这些人不仅自己了解这个话题,还被其他懂这个话题的人所认可。
  2. PageRank的原理:用“社交网络”类比
    假设派对上有10个人,每个人都在谈论不同的内容。PageRank会通过以下步骤来帮你找到最有用的人:
    步骤1:每个人都有一个“重要性”分数
    初始时,每个人都有相同的分数(比如1分)。
    这个分数代表了这个人可能对你的问题有多大的帮助。
    步骤2:看谁和谁是朋友
    每个人都有自己的“朋友”,比如A和B是朋友,B和C是朋友。
    在RAGFlow中,这些“朋友关系”是通过文本片段之间的相似性来确定的。如果两个片段讨论的内容很接近,它们就被认为是“朋友”。
    步骤3:重要的人会提升朋友的重要性
    如果A是一个很重要的“养猫专家”,而B是A的朋友,那么B的重要性也会因为A而提升。
    在PageRank中,这种提升是通过“分数传递”实现的。比如A有1分,他把一部分分数(比如0.5分)传递给B,因为B是他的朋友。
    步骤4:重复这个过程,直到分数稳定
    每个人都会把自己的分数传递给朋友,同时也会从朋友那里接收分数。
    经过几轮传递后,每个人的分数会逐渐稳定下来。那些真正重要的人(比如“养猫专家”)会得到更高的分数。
  3. PageRank在RAGFlow中的具体实现
    在RAGFlow中,PageRank的作用是帮助模型找到最重要的文本片段。具体步骤如下:
    步骤1:把文档分割成片段
    假设有一篇很长的文章,RAGFlow会把它分割成很多小片段(比如每段100个词)。
    这些片段就像是派对上的每个人。
    步骤2:计算片段之间的相似性
    模型会计算每两个片段之间的相似性(比如它们是否讨论同一个主题)。
    如果两个片段相似,它们之间就会有一条“连接线”,就像朋友关系一样。
    步骤3:给每个片段分配初始分数
    每个片段一开始都有相同的分数(比如1分)。
    步骤4:通过“朋友关系”传递分数
    如果片段A很重要(比如它包含很多关键信息),它会把自己的分数传递给与它相似的片段B。
    同时,片段B也会从其他朋友那里接收分数。
    这个过程会重复很多次,直到每个片段的分数不再变化。
    步骤5:选择最重要的片段
    最后,模型会选择那些分数最高的片段,因为这些片段不仅自己很重要,还被其他重要的片段所认可。
    这些片段会被用来帮助模型回答问题。
  4. 为什么PageRank很重要?
    在RAGFlow中,PageRank的作用是让模型能够更好地理解文档的整体结构,而不仅仅是片段的内容。它可以帮助模型找到那些真正重要的片段,尤其是那些包含关键上下文的片段。
    举个例子:
    假设你问的问题是“如何训练一只猫”,一个片段可能只提到“猫的行为”,而另一个片段提到“训练猫的具体方法”。
    通过PageRank,模型会发现“训练猫的具体方法”这个片段更重要,因为它被其他相关片段(比如“猫的行为”)所认可。
  5. 总结
    PageRank在RAGFlow中的作用就像是一个“智能筛选器”,它通过分析片段之间的关系,帮助模型找到最重要的片段。这个过程就像在社交网络中找到最有影响力的人一样,不仅看一个人自己说了什么,还要看他被多少人认可。
    希望这个细化的解释能让你更清楚地理解PageRank在RAGFlow中的原理!

好的!我们先来了解一下 RAGFlow 和 PageRank 是什么,然后再解释它们在 RAGFlow 中的具体作用。

  1. RAGFlow是什么?
    RAGFlow是一种改进的检索增强生成模型(Retrieval-Augmented Generation, RAG),它在传统的RAG基础上引入了一些新的机制,比如PageRank,来优化检索过程,让模型在回答问题时能够更准确地找到相关的背景信息。
  2. PageRank是什么?
    PageRank是一种经典的算法,最早是谷歌用来对网页进行排名的。它的核心思想是:一个网页的重要性取决于其他重要网页对它的链接数量。简单来说,如果一个网页被很多其他重要的网页链接,那么这个网页也很重要。
    举个通俗的例子:
    假设你在一个社交网络里,很多人都给你点赞,尤其是那些本身就很受欢迎的人给你点赞,那么你在网络中的“地位”就会很高。
    同样,如果一个网页被很多其他重要的网页链接,那么这个网页的“重要性”也会很高。
  3. PageRank在RAGFlow中的作用
    在RAGFlow中,PageRank被用来优化检索过程,帮助模型更好地选择与问题最相关的背景信息。具体来说,它的工作方式如下:
    3.1 传统检索方法的局限性
    在传统的RAG模型中,检索过程通常是这样的:
    把一个大文档分割成很多小片段(比如每段100个词)。
    然后用一个检索器(比如DPR)来找出与问题最相关的片段。
    问题在于,这些片段是独立检索的,没有考虑它们之间的关系。有时候,一个片段可能包含关键信息,但另一个片段可能提供了更重要的上下文。
    3.2 PageRank的作用
    RAGFlow引入PageRank算法,是为了让检索过程更智能,具体做法是:
    构建文档片段的“关系图”:把每个片段看作一个节点,如果两个片段在内容上有相关性(比如它们讨论的是同一个主题),就在它们之间画一条线(边)。
    计算每个片段的重要性:用PageRank算法来计算每个片段的重要性。一个片段的重要性不仅取决于它本身的内容,还取决于与它相连的其他片段的重要性。
    优化检索结果:在选择背景信息时,优先选择那些PageRank值高的片段,因为这些片段不仅本身重要,还可能连接到其他重要的片段。
    通俗类比
    想象你在一个图书馆里找书,传统的检索方法就像是随机挑几本书来看,看看它们是否和你的问题相关。而RAGFlow的PageRank方法就像是先看看这些书之间的关系(比如它们是否引用了彼此),然后优先选择那些被其他重要书籍引用的书,因为这些书可能包含更关键的信息。
  4. PageRank在RAGFlow中的具体效果
    通过引入PageRank,RAGFlow能够:
    更好地理解文档的整体结构:因为PageRank考虑了片段之间的关系,而不是孤立地看待每个片段。
    更准确地选择背景信息:优先选择那些更重要的片段,从而提高回答问题的质量。
    支持复杂问题的推理:对于需要多步推理的问题,PageRank可以帮助模型找到那些包含关键上下文的片段。
    总结
    在RAGFlow中,PageRank就像是一个“智能导航器”,它帮助模型在海量的文档片段中找到那些最重要、最有用的信息。通过考虑片段之间的关系,PageRank让检索过程更加高效和准确,从而让模型在回答问题时表现得更好。
    希望这个解释能让你清楚地理解PageRank在RAGFlow中的作用!

在RAGFlow中,PageRank就像给文档里的每个段落打"社交影响力分"的算法。举个简单例子帮你理解:

想象你参加一场派对,有3个人:

  1. 小明:10个朋友主动找他聊天
  2. 小红:只有2个朋友找她,但其中一个是派对主人
  3. 小刚:50个陌生人随便搭话

PageRank会认为

  • 小红虽然朋友少,但被重要人物(派对主人)认可,含金量高
  • 小明被多个真实朋友认可,质量也不错
  • 小刚虽然互动多,但都是无效社交

对应到文档处理

  1. 每个段落相当于一个"派对嘉宾"
  2. 段落之间的引用/关联相当于"社交互动"
  3. 被重要段落多次引用的段落,会获得更高权重

RAGFlow这样用PageRank
① 先拆分文档成多个段落
② 建立段落间的引用关系网
③ 算法自动识别:

  • 被多次引用的核心段落(类似小明)
  • 被关键章节引用的精华段落(类似小红)
  • 孤立存在的一般内容(类似小刚)

最终效果
当用户提问时,系统会优先采用高PageRank得分的段落来生成答案,就像派对上大家更重视小红和小明的意见,而不是随便找个人问答案。这比单纯的关键词匹配更接近人类找权威信息的思维方式。

RAGFlow 中的 PageRank 是一种优化知识图谱检索效果的核心算法,主要用于评估知识图谱中实体节点的重要性,帮助系统更精准地找到与用户提问相关的信息。以下是通俗解释:


  1. PageRank 的原始用途
    PageRank 是 Google 创始人发明的算法,最初用于评估网页的重要性。核心思想是:
  • 数量假设:被越多网页链接指向的页面,越重要。
  • 质量假设:被高权威页面链接指向的页面,重要性更高。
    例如,一篇被维基百科和权威学术网站引用的文章,会比普通网页更重要。

  1. RAGFlow 中的 PageRank 作用
    在 RAGFlow 中,PageRank 被改造用于知识图谱场景,解决复杂问题(如多跳问答、跨文档推理)。具体作用:
  • 离线阶段:
    ① 系统会从文档中抽取实体(如人名、地点),构建知识图谱;
    ② 用 PageRank 计算每个实体的重要性,形成“权威度”排名。
  • 在线查询阶段:
    当用户提问时,系统优先检索高权威度的实体和关联内容,确保答案更可靠。

  1. 举个通俗例子
    假设知识图谱中有以下实体:
  • 实体 A(被 100 个其他实体链接)
  • 实体 B(被 10 个其他实体链接)
  • 实体 C(被 1 个权威实体链接)

PageRank 会认为:

  • 实体 A 重要性最高(被链接次数多);
  • 实体 C 重要性次之(被权威实体链接);
  • 实体 B 重要性最低。
    当用户提问涉及这些实体时,系统会优先用 A 和 C 的内容生成答案。

  1. PageRank 如何优化 RAGFlow?
  • 解决“多跳问答”:
    例如用户问“爱因斯坦的母校的创始人是谁”,PageRank 能识别关键节点(爱因斯坦→母校→创始人),串联跨文档信息。
  • 防止“垃圾信息干扰”:
    低权威或孤立节点(如错误数据)会被自动降权,减少对答案的干扰。

  1. 和传统 PageRank 的区别
    | 维度 | 传统 PageRank | RAGFlow 中的 PageRank |
    |------------|------------------------|---------------------------|
    | 目标 | 网页排序 | 知识图谱实体重要性评估 |
    | 数据源 | 超链接 | 文档抽取的实体关联关系 |
    | 应用 | 搜索引擎结果排名 | 增强问答系统的检索准确性 |

总结
RAGFlow 中的 PageRank 就像知识图谱的“智能导航”,通过分析实体间的关联强度和权威性,确保系统优先选择最可靠的信息生成答案。即使问题涉及复杂关系,也能像“顺藤摸瓜”一样找到关键节点。

2025-05-27 22:26:34,119 INFO 25 172.18.0.6 - - [27/May/2025 22:26:34] "GET /v1/user/info HTTP/1.1" 200 - 2025-05-27 22:26:34,130 INFO 25 172.18.0.6 - - [27/May/2025 22:26:34] "GET /v1/user/tenant_info HTTP/1.1" 200 - 2025-05-27 22:26:34,132 INFO 25 172.18.0.6 - - [27/May/2025 22:26:34] "GET /v1/tenant/list HTTP/1.1" 200 - 2025-05-27 22:26:34,143 INFO 25 HEAD http://es01:9200/ragflow_eb78f9a02b3e11f09a020e92e4e82881 [status:200 duration:0.004s] 2025-05-27 22:26:34,147 INFO 25 172.18.0.6 - - [27/May/2025 22:26:34] "GET /v1/kb/detail?kb_id=71641baa3b0511f0a7f52a4a420cd778 HTTP/1.1" 200 - 2025-05-27 22:26:34,172 INFO 25 172.18.0.6 - - [27/May/2025 22:26:34] "GET /v1/document/list?kb_id=71641baa3b0511f0a7f52a4a420cd778&keywords=&page_size=10&page=1 HTTP/1.1" 200 - 2025-05-27 22:26:34,188 INFO 25 POST http://es01:9200/ragflow_eb78f9a02b3e11f09a020e92e4e82881/_search [status:200 duration:0.003s] 2025-05-27 22:26:34,189 INFO 25 172.18.0.6 - - [27/May/2025 22:26:34] "GET /v1/kb/71641baa3b0511f0a7f52a4a420cd778/knowledge_graph HTTP/1.1" 200 - 2025-05-27 22:26:35,916 INFO 35 task_executor_94f0f57d8d56_0 reported heartbeat: {"name": "task_executor_94f0f57d8d56_0", "now": "2025-05-27T22:26:35.916+08:00", "boot_at": "2025-05-27T18:41:02.941+08:00", "pending": 3, "lag": 0, "done": 6, "failed": 3, "current": {"720abb683ae711f0b8a32a4a420cd778": {"id": "720abb683ae711f0b8a32a4a420cd778", "doc_id": "299b2d803a4311f0b39fa246fea92603", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "eb8350363a4211f0b786a246fea92603", "parser_id": "naive", "parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 128, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "category"], "method": "light", "resolution": true}}, "name": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "type": "doc", "location": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "size": 413056, "tenant_id": "eb78f9a02b3e11f09a020e92e4e82881", "language": "English", "embd_id": "nomic-embed-text@Ollama", "pagerank": 0, "kb_parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 128, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "category"], "method": "light", "resolution": true}}, "img2txt_id": "", "asr_id": "", "llm_id": "deepseek-r1:7b@Ollama", "update_time": 1748342617366, "task_type": "graphrag"}, "e09d7aae3aef11f0b8a32a4a420cd778": {"id": "e09d7aae3aef11f0b8a32a4a420cd778", "doc_id": "7e91ffd2363b11f0968c1e1ec4b6ef6c", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "b14752e8362611f092a7a2dd0c8ecca2", "parser_id": "naive", "parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 512, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "person", "geo", "event", "category"], "method": "light", "resolution": true, "community": true}}, "name": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "type": "doc", "location": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "size": 413056, "tenant_id": "eb78f9a02b3e11f09a020e92e4e82881", "language": "English", "embd_id": "nomic-embed-text@Ollama", "pagerank": 0, "kb_parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 128, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "category"], "method": "general", "resolution": true}}, "img2txt_id": "", "asr_id": "", "llm_id": "deepseek-r1:7b@Ollama", "update_time": 1748346238857, "task_type": "graphrag"}, "20279e503b0611f0b8a32a4a420cd778": {"id": "20279e503b0611f0b8a32a4a420cd778", "doc_id": "dfa93e603b0511f0a2e32a4a420cd778", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "71641baa3b0511f0a7f52a4a420cd778", "parser_id": "naive", "parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 1024, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "price", "activity"], "method": "light"}}, "name": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.xlsx", "type": "doc", "location": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.xlsx", "size": 113143, "tenant_id": "eb78f9a02b3e11f09a020e92e4e82881", "language": "English", "embd_id": "nomic-embed-text@Ollama", "pagerank": 0, "kb_parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 1024, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "price", "activity"], "method": "light"}}, "img2txt_id": "", "asr_id": "", "llm_id": "deepseek-r1:7b@Ollama", "update_time": 1748355794381, "task_type": "graphrag"}}} 2025-05-27 22:27:06,117 INFO 35 task_executor_94f0f57d8d56_0 reported heartbeat: {"name": "task_executor_94f0f57d8d56_0", "now": "2025-05-27T22:27:06.116+08:00", "boot_at": "2025-05-27T18:41:02.941+08:00", "pending": 3, "lag": 0, "done": 6, "failed": 3, "current": {"720abb683ae711f0b8a32a4a420cd778": {"id": "720abb683ae711f0b8a32a4a420cd778", "doc_id": "299b2d803a4311f0b39fa246fea92603", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "eb8350363a4211f0b786a246fea92603", "parser_id": "naive", "parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 128, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "category"], "method": "light", "resolution": true}}, "name": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "type": "doc", "location": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "size": 413056, "tenant_id": "eb78f9a02b3e11f09a020e92e4e82881", "language": "English", "embd_id": "nomic-embed-text@Ollama", "pagerank": 0, "kb_parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 128, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "category"], "method": "light", "resolution": true}}, "img2txt_id": "", "asr_id": "", "llm_id": "deepseek-r1:7b@Ollama", "update_time": 1748342617366, "task_type": "graphrag"}, "e09d7aae3aef11f0b8a32a4a420cd778": {"id": "e09d7aae3aef11f0b8a32a4a420cd778", "doc_id": "7e91ffd2363b11f0968c1e1ec4b6ef6c", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "b14752e8362611f092a7a2dd0c8ecca2", "parser_id": "naive", "parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 512, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "person", "geo", "event", "category"], "method": "light", "resolution": true, "community": true}}, "name": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "type": "doc", "location": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "size": 413056, "tenant_id": "eb78f9a02b3e11f09a020e92e4e82881", "language": "English", "embd_id": "nomic-embed-text@Ollama", "pagerank": 0, "kb_parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 128, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "category"], "method": "general", "resolution": true}}, "img2txt_id": "", "asr_id": "", "llm_id": "deepseek-r1:7b@Ollama", "update_time": 1748346238857, "task_type": "graphrag"}, "20279e503b0611f0b8a32a4a420cd778": {"id": "20279e503b0611f0b8a32a4a420cd778", "doc_id": "dfa93e603b0511f0a2e32a4a420cd778", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "71641baa3b0511f0a7f52a4a420cd778", "parser_id": "naive", "parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 1024, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "price", "activity"], "method": "light"}}, "name": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.xlsx", "type": "doc", "location": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.xlsx", "size": 113143, "tenant_id": "eb78f9a02b3e11f09a020e92e4e82881", "language": "English", "embd_id": "nomic-embed-text@Ollama", "pagerank": 0, "kb_parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 1024, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "price", "activity"], "method": "light"}}, "img2txt_id": "", "asr_id": "", "llm_id": "deepseek-r1:7b@Ollama", "update_time": 1748355794381, "task_type": "graphrag"}}} 2025-05-27 22:27:36,312 INFO 35 task_executor_94f0f57d8d56_0 reported heartbeat: {"name": "task_executor_94f0f57d8d56_0", "now": "2025-05-27T22:27:36.311+08:00", "boot_at": "2025-05-27T18:41:02.941+08:00", "pending": 3, "lag": 0, "done": 6, "failed": 3, "current": {"720abb683ae711f0b8a32a4a420cd778": {"id": "720abb683ae711f0b8a32a4a420cd778", "doc_id": "299b2d803a4311f0b39fa246fea92603", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "eb8350363a4211f0b786a246fea92603", "parser_id": "naive", "parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 128, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "category"], "method": "light", "resolution": true}}, "name": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "type": "doc", "location": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "size": 413056, "tenant_id": "eb78f9a02b3e11f09a020e92e4e82881", "language": "English", "embd_id": "nomic-embed-text@Ollama", "pagerank": 0, "kb_parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 128, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "category"], "method": "light", "resolution": true}}, "img2txt_id": "", "asr_id": "", "llm_id": "deepseek-r1:7b@Ollama", "update_time": 1748342617366, "task_type": "graphrag"}, "e09d7aae3aef11f0b8a32a4a420cd778": {"id": "e09d7aae3aef11f0b8a32a4a420cd778", "doc_id": "7e91ffd2363b11f0968c1e1ec4b6ef6c", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "b14752e8362611f092a7a2dd0c8ecca2", "parser_id": "naive", "parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 512, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "person", "geo", "event", "category"], "method": "light", "resolution": true, "community": true}}, "name": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "type": "doc", "location": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.CSV", "size": 413056, "tenant_id": "eb78f9a02b3e11f09a020e92e4e82881", "language": "English", "embd_id": "nomic-embed-text@Ollama", "pagerank": 0, "kb_parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 128, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "category"], "method": "general", "resolution": true}}, "img2txt_id": "", "asr_id": "", "llm_id": "deepseek-r1:7b@Ollama", "update_time": 1748346238857, "task_type": "graphrag"}, "20279e503b0611f0b8a32a4a420cd778": {"id": "20279e503b0611f0b8a32a4a420cd778", "doc_id": "dfa93e603b0511f0a2e32a4a420cd778", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "71641baa3b0511f0a7f52a4a420cd778", "parser_id": "naive", "parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 1024, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "price", "activity"], "method": "light"}}, "name": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.xlsx", "type": "doc", "location": "\u4e91\u5357\u65c5\u6e38\u6570\u636e.xlsx", "size": 113143, "tenant_id": "eb78f9a02b3e11f09a020e92e4e82881", "language": "English", "embd_id": "nomic-embed-text@Ollama", "pagerank": 0, "kb_parser_config": {"layout_recognize": "DeepDOC", "chunk_token_num": 1024, "delimiter": "\n", "auto_keywords": 0, "auto_questions": 0, "html4excel": false, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "geo", "price", "activity"], "method": "light"}}, "img2txt_id": "", "asr_id": "", "llm_id": "deepseek-r1:7b@Ollama", "update_time": 1748355794381, "task_type": "graphrag"}}} 日志输出如上
05-28
2025-05-28 08:53:52,566 INFO 21 task_consumer_0 reported heartbeat: {"name": "task_consumer_0", "now": "2025-05-28T08:53:52.565+08:00", "boot_at": "2025-05-27T14:16:21.485+08:00", "pending": 1, "lag": 1, "done": 25, "failed": 0, "current": {"id": "668adbb43ad911f0a3260242ac120006", "doc_id": "faa43cba3aa111f087870242ac120005", "from_page": 100000000, "to_page": 100000000, "retry_count": 0, "kb_id": "d2dd7d5e3aa111f0ac570242ac120005", "parser_id": "manual", "parser_config": {"auto_keywords": 24, "auto_questions": 8, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "person", "geo", "event", "category"], "method": "general", "resolution": true}, "chunk_token_num": 764, "delimiter": "\\n!?;\u3002\uff1b\uff01\uff1f", "layout_recognize": "DeepDOC", "html4excel": false, "task_page_size": 12, "pages": [[1, 1024]]}, "name": "\u8f66\u95f4\u7efc\u5408\u7ba1\u7406\u7cfb\u7edf_\u64cd\u4f5c\u624b\u518c20240122.pdf", "type": "pdf", "location": "\u8f66\u95f4\u7efc\u5408\u7ba1\u7406\u7cfb\u7edf_\u64cd\u4f5c\u624b\u518c20240122.pdf", "size": 12580337, "tenant_id": "7fcf00ca2f9211f0bdbf0242ac120006", "language": "Chinese", "embd_id": "BAAI/bge-large-zh-v1.5@BAAI", "pagerank": 0, "kb_parser_config": {"auto_keywords": 0, "auto_questions": 0, "raptor": {"use_raptor": false}, "graphrag": {"use_graphrag": true, "entity_types": ["organization", "person", "geo", "event", "category"], "method": "general", "resolution": true}, "chunk_token_num": 1950, "delimiter": "\\n!?;\u3002\uff1b\uff01\uff1f", "layout_recognize": "DeepDOC", "html4excel": false}, "img2txt_id": "qwen-vl-max@Tongyi-Qianwen", "asr_id": "paraformer-realtime-8k-v1@Tongyi-Qianwen", "llm_id": "deepseek-r1:32b@Ollama", "update_time": 1748336585126, "task_type": "graphrag"}}
最新发布
05-29
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值