Docling 开源项目教程
docling Get your documents ready for gen AI 项目地址: https://gitcode.com/gh_mirrors/do/docling
1. 项目介绍
Docling 是一个文档处理工具,它可以解析多种文档格式,包括 PDF、DOCX、XLSX、HTML、图像等。Docling 提供了对 PDF 文档的高级理解,包括页面布局、阅读顺序、表格结构、代码、公式、图像分类等。它还提供了统一的文档表示格式,支持多种导出格式,包括 Markdown、HTML 和无损 JSON。此外,Docling 还具有本地执行能力,适用于敏感数据和空气隔离环境,并且可以轻松集成流行的 AI 框架,如 LangChain、LlamaIndex、Crew AI 和 Haystack。
2. 项目快速启动
首先,确保您的环境中已经安装了 Python。接下来,使用以下命令安装 Docling:
pip install docling
安装完成后,您可以使用 Python 代码或命令行界面来转换文档。
使用 Python 代码
以下是一个简单的 Python 代码示例,用于将文档转换为 Markdown 格式:
from docling.document_converter import DocumentConverter
# 使用文档的本地路径或 URL
source = "https://arxiv.org/pdf/2408.09869"
# 创建 DocumentConverter 对象
converter = DocumentConverter()
# 转换文档
result = converter.convert(source)
# 打印转换后的 Markdown
print(result.document.export_to_markdown())
使用命令行界面
您也可以使用 Docling 的命令行界面来转换文档。例如:
docling https://arxiv.org/pdf/2206.01062
如果您想要使用视觉语言模型(如 SmolDocling),可以使用以下命令:
docling --pipeline vlm --vlm-model smoldocling https://arxiv.org/pdf/2206.01062
请注意,这个命令会使用 MLX 加速支持 Apple Silicon 硬件。
3. 应用案例和最佳实践
- 文档解析:使用 Docling 解析 PDF、DOCX、XLSX 等格式的文档,并提取结构化数据。
- 图像处理:对扫描的 PDF 或图像进行 OCR 识别,以提取文本和表格数据。
- 集成 AI:将 Docling 与 AI 框架集成,以实现更复杂的文档处理任务,如自动摘要、问答系统等。
4. 典型生态项目
- LangChain:一个基于语言模型的框架,可以与 Docling 集成,用于构建复杂的文档处理应用程序。
- LlamaIndex:一个索引构建和管理框架,可以帮助您构建基于 Docling 的搜索和推荐系统。
- Crew AI:一个用于构建自动化工作流的平台,可以通过 Docling 来处理和自动化文档工作流。
以上就是关于 Docling 开源项目的简要教程,希望对您有所帮助。
docling Get your documents ready for gen AI 项目地址: https://gitcode.com/gh_mirrors/do/docling
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考