PDFMiner.six 教程：如何从PDF中提取字体名称和大小信息-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00700/article/details/148467514

PDFMiner.six 教程：如何从PDF中提取字体名称和大小信息

pdfminer.six Community maintained fork of pdfminer - we fathom PDF 项目地址: https://gitcode.com/gh_mirrors/pd/pdfminer.six

前言

PDF文档中的文本通常包含丰富的格式信息，其中字体属性是最基础也最重要的元数据之一。PDFMiner.six作为一款强大的PDF文本提取工具，能够帮助我们深入挖掘这些信息。本文将详细介绍如何使用PDFMiner.six提取PDF文档中的字体名称和大小等关键属性。

准备工作

在开始之前，请确保你已经正确安装了PDFMiner.six库。如果尚未安装，可以通过Python包管理器进行安装。

核心概念解析

PDFMiner.six处理PDF文档时，会将文档内容解析为一系列布局对象(Layout Objects)，这些对象构成了一个层次结构：

LTPage：代表PDF的一个页面
LTTextBox：页面上的文本区域（水平或垂直方向）
LTTextLine：文本框中的文本行
LTChar：单个字符及其属性
LTAnno：布局中的空白或特殊标记

其中，只有LTChar对象包含具体的字体信息，因为PDF文档中不同字符可以使用不同的字体。

代码实现详解

下面是一个完整的示例代码，展示了如何提取PDF文档中的字体信息：

from pathlib import Path
from typing import Iterable, Any
from pdfminer.high_level import extract_pages

def show_ltitem_hierarchy(o: Any, depth=0):
    """递归显示布局对象层次结构及其属性"""
    if depth == 0:
        print('元素类型                       字体信息                 颜色信息  文本内容')
        print('------------------------------ --------------------- --------------  ----------')

    print(
        f'{get_indented_name(o, depth):<30.30s} '
        f'{get_optional_fontinfo(o):<20.20s} '
        f'{get_optional_color(o):<17.17s}'
        f'{get_optional_text(o)}'
    )

    if isinstance(o, Iterable):
        for i in o:
            show_ltitem_hierarchy(i, depth=depth + 1)

def get_indented_name(o: Any, depth: int) -> str:
    """获取带缩进的类名"""
    return '  ' * depth + o.__class__.__name__

def get_optional_fontinfo(o: Any) -> str:
    """获取字体信息（如果存在）"""
    if hasattr(o, 'fontname') and hasattr(o, 'size'):
        return f'{o.fontname} {round(o.size)}pt'
    return ''

def get_optional_color(o: Any) -> str:
    """获取颜色信息（如果存在）"""
    if hasattr(o, 'graphicstate'):
        return f'{o.graphicstate.scolor}'
    return ''

def get_optional_text(o: Any) -> str:
    """获取文本内容（如果存在）"""
    if hasattr(o, 'get_text'):
        return o.get_text().strip()
    return ''

# 使用示例
path = Path('sample.pdf').expanduser()
pages = extract_pages(path)
show_ltitem_hierarchy(pages)

输出结果解析

执行上述代码后，你将看到类似以下的输出：

元素类型                       字体信息                 颜色信息  文本内容
------------------------------ --------------------- --------------  ----------
generator
  LTPage
    LTTextBoxHorizontal                                              Hello
      LTTextLineHorizontal                                           Hello
        LTChar                 Helvetica 24pt       None             H
        LTChar                 Helvetica 24pt       None             e
        LTChar                 Helvetica 24pt       None             l
        LTChar                 Helvetica 24pt       None             l
        LTChar                 Helvetica 24pt       None             o
        LTChar                 Helvetica 24pt       None
        LTAnno

输出结果展示了：