DS4SD/docling项目文档增强功能详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00445/article/details/148359932

DS4SD/docling项目文档增强功能详解

docling Get your documents ready for gen AI 项目地址: https://gitcode.com/gh_mirrors/do/docling

项目概述

DS4SD/docling是一个专业的文档处理工具，它提供了一系列强大的文档增强功能，能够对文档中的特定元素（如代码块、图片、公式等）进行深度分析和处理。这些功能基于先进的机器学习模型，可以帮助用户从文档中提取更多有价值的信息。

增强功能概览

Docling提供了四种核心增强功能，每种功能都针对文档中的特定元素：

代码理解：解析代码块并识别编程语言
公式理解：提取数学公式的LaTeX表示
图片分类：识别文档中图片的类型
图片描述：为图片生成文字描述

这些功能默认是关闭的，因为它们需要额外的计算资源，可能会显著增加处理时间。

功能详解

代码理解功能

代码理解功能能够深入分析文档中的代码块，自动识别代码的编程语言类型，并将识别结果存储在CodeItem的code_language属性中。

技术实现：

使用CodeFormula模型进行代码分析
支持多种编程语言的识别
能够处理复杂代码结构

使用示例：

from docling.document_converter import DocumentConverter, PdfFormatOption
from docling.datamodel.pipeline_options import PdfPipelineOptions
from docling.datamodel.base_models import InputFormat

# 配置管道选项
pipeline_options = PdfPipelineOptions()
pipeline_options.do_code_enrichment = True  # 启用代码增强

# 创建转换器实例
converter = DocumentConverter(format_options={
    InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)
})

# 执行转换
result = converter.convert("文档路径")
doc = result.document

公式理解功能

公式理解功能专门处理文档中的数学公式，提取它们的LaTeX表示形式。在HTML导出时，Docling会使用mathml语法将这些公式可视化呈现。

技术特点：

精确识别文档中的数学表达式
支持复杂数学符号和公式结构
输出标准LaTeX格式，便于后续处理

命令行使用：

docling --enrich-formula 文档路径

图片分类功能

图片分类功能使用DocumentFigureClassifier模型对文档中的图片进行分类，识别图片的具体类型，如各种图表、流程图、标志、签名等。

高级配置：

pipeline_options.generate_picture_images = True  # 生成图片
pipeline_options.images_scale = 2  # 设置图片缩放比例
pipeline_options.do_picture_classification = True  # 启用图片分类

图片描述功能

图片描述功能使用视觉语言模型为图片生成文字描述（也称为"图片标注"任务）。Docling支持多种模型配置方式：

本地模型：
- Granite Vision模型
- SmolVLM模型
- 其他Hugging Face Hub上的模型
远程API：
- 支持VLLM、Ollama等本地服务
- 支持IBM watsonx.ai等云服务

模型配置示例：

# 使用Granite Vision模型
from docling.datamodel.pipeline_options import granite_picture_description
pipeline_options.picture_description_options = granite_picture_description

# 使用自定义模型
from docling.datamodel.pipeline_options import PictureDescriptionVlmOptions
pipeline_options.picture_description_options = PictureDescriptionVlmOptions(
    repo_id="模型ID",
    prompt="描述提示语",
)