使用Docugami加载文档并进行高精度文档问答

本文链接：https://blog.youkuaiyun.com/vaidfl/article/details/146451561

技术背景介绍

Docugami是一种智能文档处理系统，专注于通过将文档转化为具有语义结构的XML格式，为适配复杂的文档问答（QA）、语义分析和信息检索提供基础。它与传统的数据加载器相比，提供了更加智能的文档分块技术，使检索和处理过程中能够更好地保留文档语义。

核心原理解析

Docugami通过语义颗粒化技术，将文档转化为不同大小的语义块（从单个单词到整段）。这些块遵循文档的语义轮廓，并通过语义标记进行注释，使得在批量文档查询时始终保持一致性。除此之外，Docugami还生成结构化的XML树，标记文档结构（如段落、列表、表格等），并提供额外的元数据，包括文档路径、文档ID等。

代码实现演示

以下演示如何使用DocugamiLoader来加载文档并进行语义分块。

import os
from docugami_langchain.document_loaders import DocugamiLoader

# 确保 DOCUGAMI_API_KEY 环境变量已设置
DOCUGAMI_API_KEY = os.environ.get("DOCUGAMI_API_KEY")

docset_id = "26xpy3aes7xp"
document_ids = ["d7jqdzcj50sj", "cgd1eacfkchw"]

# 加载指定 docset 和 document IDs 的文档
loader = DocugamiLoader(docset_id=docset_id, document_ids=document_ids)
chunks = loader.load()
print(f"Loaded {len(chunks)} chunks")

# 配置加载选项
loader.min_text_length = 64
loader.include_xml_tags = True
chunks = loader.load()

# 显示部分块的信息
for chunk in chunks[:5]:
    print(chunk.page_content)
    print(chunk.metadata)