pdftojson 项目常见问题解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00768/article/details/144575773

pdftojson 项目常见问题解决方案

pdftojson using XPDF, pdftojson extracts text from PDF files as JSON, including word bounding boxes. 项目地址: https://gitcode.com/gh_mirrors/pd/pdftojson

项目基础介绍

pdftojson 是一个开源项目，旨在从 PDF 文件中提取文本并以 JSON 格式输出，同时包含每个单词的边界框信息。该项目基于 XPDF 工具，主要使用 C++ 和 C 语言进行开发。通过该工具，用户可以轻松地将 PDF 文件中的文本内容转换为结构化的 JSON 数据，便于进一步处理和分析。

主要编程语言

C++: 项目的主要编程语言，负责核心的文本提取和 JSON 生成功能。
C: 辅助语言，用于处理一些底层的功能和依赖库的集成。

新手使用注意事项及解决方案

1. 编译问题

问题描述: 新手在尝试编译项目时，可能会遇到依赖库未正确配置的问题，尤其是在 MacOS 或 Ubuntu 系统上。

解决步骤:

检查依赖库: 确保系统中已安装 libpng 和 libfreetype 库。

配置编译选项: 在 MacOS 上，可以使用以下命令指定库的位置：

./configure --with-libpng-library=/usr/local/Cellar/libpng/1.6.16/lib/ --with-libpng-includes=/usr/local/Cellar/libpng/1.6.16/include/ --with-freetype2-library=/usr/local/lib/ --with-freetype2-includes=/usr/local/include/freetype2/

执行编译: 运行 make 命令进行编译。

2. JSON 输出格式问题

问题描述: 新手在使用 pdftojson 时，可能会对输出的 JSON 格式感到困惑，尤其是对每个页面的文本数组结构不熟悉。

解决步骤:

理解 JSON 格式: 输出的 JSON 格式如下：

[
  {
    "pages": 14,
    "number": 1,
    "width": 612,
    "height": 792,
    "text": [
      [115, 162, 41, 14, 0, "What "]
    ]
  },
  {
    "pages": 14,
    "number": 2,
    "width": 612,
    "height": 792,
    "text": [
      [115, 162, 41, 14, 0, "Here "]
    ]
  }
]