Docling 开源项目教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00061/article/details/146531873

Docling 开源项目教程

docling Get your documents ready for gen AI 项目地址: https://gitcode.com/gh_mirrors/do/docling

1. 项目介绍

Docling 是一个文档处理工具，它可以解析多种文档格式，包括 PDF、DOCX、XLSX、HTML、图像等。Docling 提供了对 PDF 文档的高级理解，包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等。它还提供了统一的文档表示格式，支持多种导出格式，包括 Markdown、HTML 和无损 JSON。此外，Docling 还具有本地执行能力，适用于敏感数据和空气隔离环境，并且可以轻松集成流行的 AI 框架，如 LangChain、LlamaIndex、Crew AI 和 Haystack。

2. 项目快速启动

首先，确保您的环境中已经安装了 Python。接下来，使用以下命令安装 Docling：

pip install docling

安装完成后，您可以使用 Python 代码或命令行界面来转换文档。

使用 Python 代码

以下是一个简单的 Python 代码示例，用于将文档转换为 Markdown 格式：

from docling.document_converter import DocumentConverter

# 使用文档的本地路径或 URL
source = "https://arxiv.org/pdf/2408.09869"

# 创建 DocumentConverter 对象
converter = DocumentConverter()

# 转换文档
result = converter.convert(source)

# 打印转换后的 Markdown
print(result.document.export_to_markdown())

使用命令行界面

您也可以使用 Docling 的命令行界面来转换文档。例如：

docling https://arxiv.org/pdf/2206.01062

如果您想要使用视觉语言模型（如 SmolDocling），可以使用以下命令：

docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062

请注意，这个命令会使用 MLX 加速支持 Apple Silicon 硬件。

3. 应用案例和最佳实践

文档解析：使用 Docling 解析 PDF、DOCX、XLSX 等格式的文档，并提取结构化数据。
图像处理：对扫描的 PDF 或图像进行 OCR 识别，以提取文本和表格数据。
集成 AI：将 Docling 与 AI 框架集成，以实现更复杂的文档处理任务，如自动摘要、问答系统等。

4. 典型生态项目

LangChain：一个基于语言模型的框架，可以与 Docling 集成，用于构建复杂的文档处理应用程序。
LlamaIndex：一个索引构建和管理框架，可以帮助您构建基于 Docling 的搜索和推荐系统。
Crew AI：一个用于构建自动化工作流的平台，可以通过 Docling 来处理和自动化文档工作流。

以上就是关于 Docling 开源项目的简要教程，希望对您有所帮助。

docling Get your documents ready for gen AI 项目地址: https://gitcode.com/gh_mirrors/do/docling

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考