精通Java文档文本提取：使用Apache POI和PDFBox

耄先森吖

于 2025-06-10 09:50:12 发布

阅读量881

点赞数 27

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_35753431/article/details/148595953

本文还有配套的精品资源，点击获取

简介：本文将详细指导如何使用Java的Apache POI库处理Office文档和PDFBox库处理PDF文件，以便从中提取文本内容。Apache POI库提供了操作Microsoft Office文件格式的API，而PDFBox是用于操作PDF文档的工具。文章将介绍如何提取Word文档中的文本、如何处理Excel文件中的数据单元格以及如何从PowerPoint幻灯片中获取文本。对于PDF文件，我们将学习如何读取文件内容、提取文本和应用过滤条件以提取特定文本。此外，我们还将讨论在项目中整合这些功能，以及如何处理可能遇到的错误和性能优化问题。 Office文档

1. Apache POI库使用指南

1.1 Apache POI简介

Apache POI是一个开源的Java库，它提供了对Microsoft Office格式文件的读写能力。从版本3.x开始，Apache POI支持Microsoft Office 2007及更高版本的文件格式（即OOXML格式，如xlsx、docx、pptx等），同时也支持旧版的文件格式（如xls、doc、ppt等）。Apache POI是处理Office文件非常重要的工具，尤其在企业环境中，对于自动化处理Excel报表、Word文档或PPT演示文稿等需求，提供了强大的技术支持。

1.2 Apache POI在文档处理中的作用

在文档处理中，Apache POI不仅可以用来读取文档内容，还能创建新的文档、修改现有文档以及提取文档中的特定信息。这种灵活性使得Apache POI成为开发人员在实现文档自动化处理时的首选工具。比如，在数据报告生成、文档内容管理和自动化办公场景中，Apache POI可以大幅度减少手动操作，提高开发效率和用户体验。

1.3 开始使用Apache POI

要开始使用Apache POI，开发者需要先将其添加到项目依赖中。对于Maven项目，可以在 pom.xml 文件中添加如下依赖：

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>5.2.2</version>
</dependency>

请根据实际需要选择合适的版本。对于非Maven项目，需要手动下载对应版本的jar文件并添加到项目的类路径中。一旦添加了依赖，就可以开始编码操作Office文档了。接下来的章节会详细介绍如何使用Apache POI进行Office文档的文本提取。

2. Office文档文本提取方法

2.1 Apache POI库的基本使用

Apache POI是一个流行的开源库，使得Java程序可以读取和写入Microsoft Office格式的文件。无论是处理旧版的HSSF/XSSF（Excel）格式，还是处理HWPF/HDGF（Word）或HSLF（PowerPoint），Apache POI提供了丰富的API来处理不同类型的Office文档。

2.1.1 Apache POI库的安装和配置

在Java项目中使用Apache POI，首先需要将其添加到项目依赖中。对于Maven项目，可以在 pom.xml 文件中添加以下依赖：

<dependencies>
    <!-- Apache POI dependencies -->
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi</artifactId>
        <version>5.2.3</version>
    </dependency>
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>5.2.3</version>
    </dependency>
    <!-- other dependencies -->
</dependencies>

添加完依赖后，项目就可以开始使用Apache POI库的相关类和方法了。

2.1.2 Apache POI库的主要类和方法

Apache POI的主要类和方法包括但不限于：

FileInputStream ：读取文件的输入流。
POIFSFileSystem ：用于处理HSSF和HWPF文件。
XSSFWorkbook 和 HSSFWorkbook ：分别用于操作Excel文件。
XSSFSheet 、 XSSFRow 、 XSSFCell ：用于访问Excel的Sheet、行和单元格。
HWPFDocument 和 XWPFDocument ：分别用于操作Word文件。
XSLFSlideShow 和 XSLFSlide ：用于操作PPT文件。

接下来的章节将深入探讨如何使用这些类和方法进行Office文档文本的提取。

2.2 Office文档的结构解析

2.2.1 Word文档的结构解析

Microsoft Word文档（.doc和.docx格式）的内部结构较为复杂。.doc格式是基于OLE（对象链接与嵌入）的二进制格式，而.docx格式则是一个基于XML的压缩包格式。Apache POI提供了 HWPFDocument 用于处理旧版.doc文档，而 XWPFDocument 用于处理新版.docx文档。

.docx文档结构解析

.docx文档实际上是一个压缩包，包含多个主要的XML文件，如 [Content_Types].xml 、 _rels 目录和 document.xml 。通过解析 document.xml 文件，可以访问文档中的文本内容。

.doc文档结构解析

.doc文档则需要通过 HWPFDocument 类来解析，它提供了 getParagraphText() 方法来获取段落文本，以及 getRangeText() 方法来获取文本范围。

2.2.2 Excel文档的结构解析

Excel文档的结构也相对复杂，其中XLSX格式的Excel文件是一个压缩包，包含了多个 .xml 文件。主要文件包括 xl/workbook.xml 、 xl/worksheets 目录下的多个 .xml 文件等。Apache POI通过 XSSFWorkbook 类来解析 .xlsx 格式，通过 HSSFWorkbook 解析 .xls 格式。

.xlsx文档结构解析

在 .xlsx 文件中， XSSFSheet 对象代表一个工作表，而 XSSFRow 和 XSSFCell 对象分别代表行和单元格。通过遍历 XSSFSheet 对象，可以获取所有的单元格数据。

.xls文档结构解析

.xls 格式的文档结构解析较为复杂， HSSFWorkbook 类提供了一系列方法来获取工作表( getSheetAt )、行( getRow )和单元格( getCell )对象，从而实现文本内容的提取。

2.2.3 PPT文档的结构解析

PPT文档可以是旧版的 .ppt 格式或新版的 .pptx 格式。Apache POI提供了 HSLFSlideShow 类用于处理 .ppt 格式， XSLFSlideShow 类用于处理 .pptx 格式。

.pptx文档结构解析

.pptx文件的结构也是基于XML的压缩包。通过访问 ppt/slides 目录下的 .xml 文件，可以获取幻灯片中的文本内容。 XSLFSlide 类提供了 getSlideText() 方法来提取幻灯片的文本。

接下来，我们将展示如何使用上述方法进行Office文档文本提取的实例操作。

3. PDFBox库使用指南

3.1 PDFBox库的基本使用

3.1.1 PDFBox库的安装和配置

在本节中，我们将介绍如何安装和配置Apache PDFBox库，这是一个开源的Java库，用于处理PDF文档。它可以用来创建新PDF文档、修改现有文档，以及提取文本和图像等数据。

为了安装PDFBox库，首先需要在项目中添加依赖。如果你使用Maven构建工具，可以在 pom.xml 文件中加入以下依赖：

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.24</version>
</dependency>

请注意，版本号 2.0.24 可能会随着时间更新而变化，请根据实际情况选择合适的版本。

安装完成后，可以开始编写代码使用PDFBox库。首先，需要导入核心类库：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

3.1.2 PDFBox库的主要类和方法

Apache PDFBox提供了一系列用于操作PDF的类和方法，下面是几个核心的类及其功能：

PDDocument ：表示一个PDF文档，可以加载、创建和保存文档。
PDFTextStripper ：用于提取PDF文档中的文本内容。
PDFRenderer ：可以渲染PDF页面并提取页面内容。

接下来我们使用 PDFTextStripper 类来演示如何提取PDF文档中的文本：

try (PDDocument document = PDDocument.load(new File("example.pdf"))) {
    PDFTextStripper stripper = new PDFTextStripper();
    String text = stripper.getText(document);
    System.out.println(text);
} catch (IOException e) {
    e.printStackTrace();
}

在这段代码中，我们首先打开一个PDF文档，然后创建一个 PDFTextStripper 对象来提取文档的文本内容，最后将提取的文本打印出来。这是一个非常基础的使用示例，而PDFBox的功能远远不止于此。

3.2 PDF文档的结构解析

3.2.1 PDF文档的结构特性

PDF文档具有一些独特的结构特性，这些特性对于理解如何使用PDFBox进行解析至关重要。PDF文档由对象、页面和内容流组成。对象可以是页面、图像或其他资源。页面是文档的可视部分，并包含内容流，其中定义了页面上显示的内容。

3.2.2 PDF文档的文本层解析

要解析PDF文档的文本层，我们需要理解PDF文档中页面的组成和内容流的工作方式。PDFBox库提供了一种简化的方式来处理这些复杂的结构，允许开发者专注于业务逻辑而非底层细节。

以下是一个简单的例子，展示了如何使用PDFBox遍历PDF文档的每一页并提取文本：

try (PDDocument document = PDDocument.load(new File("example.pdf"))) {
    for (int i = 0; i < document.getNumberOfPages(); i++) {
        PDFRenderer renderer = new PDFRenderer(document);
        BufferedImage image = renderer.renderImageWithDPI(i, 300);
        // 此处可以添加图像处理逻辑
        PDFTextStripper stripper = new PDFTextStripper();
        String text = stripper.getText(document.getPage(i));
        System.out.println("Page " + (i + 1) + " text:");
        System.out.println(text);
    }
} catch (IOException e) {
    e.printStackTrace();
}

在这个例子中，我们使用 PDFRenderer 类将PDF页面渲染为图像，并使用 PDFTextStripper 提取每一页的文本。这可以帮助我们可视化页面布局，同时提取文本数据。

3.3 PDF文档文本提取实例

3.3.1 纯文本PDF文档的文本提取实例

对于纯文本PDF文档，使用PDFBox的文本提取功能相对简单。下面的代码演示了如何处理一个没有复杂图形或嵌入式字体的PDF文档：

try (PDDocument document = PDDocument.load(new File("plaintext.pdf"))) {
    PDFTextStripper stripper = new PDFTextStripper();
    String text = stripper.getText(document);
    System.out.println(text);
} catch (IOException e) {
    e.printStackTrace();
}

这段代码加载了一个PDF文件，然后创建了一个 PDFTextStripper 实例来提取文件中的文本，最后输出到控制台。

3.3.2 含有图片PDF文档的文本提取实例

对于含有图片的PDF文档，提取文本会稍微复杂一些，因为你可能需要处理图像和文本的混合内容。此时，我们可以使用 PDFRenderer 来渲染页面，并配合 PDFTextStripper 来处理文本。

try (PDDocument document = PDDocument.load(new File("image_text混合.pdf"))) {
    for (int i = 0; i < document.getNumberOfPages(); i++) {
        PDFRenderer renderer = new PDFRenderer(document);
        BufferedImage image = renderer.renderImageWithDPI(i, 300);
        // 可以使用图像处理技术进一步处理图像
        PDFTextStripper stripper = new PDFTextStripper();
        stripper.setSortByPosition(true);
        String pageText = stripper.getText(document.getPage(i));
        System.out.println("Page " + (i + 1));
        System.out.println(pageText);
    }
} catch (IOException e) {
    e.printStackTrace();
}

在这段代码中，我们使用 PDFRenderer 来渲染每个页面，并将生成的图像和提取的文本输出。 PDFTextStripper 的 setSortByPosition(true) 方法确保文本按页面上的顺序输出。

通过以上实例，我们可以看出PDFBox不仅提供了文本提取的基本功能，同时也支持复杂的PDF文档结构解析和内容提取。这为文档处理系统集成提供了坚实的基础，并且可以处理多种不同的业务需求。

4. 文档处理系统集成

4.1 系统集成的基本流程

文档处理系统集成是将文档处理库如Apache POI或PDFBox集成到现有系统中的过程。它涉及到多个步骤，需要细心规划和执行，以确保系统的稳定运行和高效文档处理能力。

4.1.1 系统集成的准备工作

在开始集成之前，需要进行一些准备工作，这包括：

需求分析 ：确定系统集成的需求，例如支持哪些文档类型、处理文档的业务场景等。
技术选型 ：根据需求选择合适的技术栈和库版本，考虑扩展性、稳定性和社区支持。
环境搭建 ：创建集成环境，配置开发、测试和生产环境的相关软件和硬件资源。
开发计划 ：制定详细的开发计划，包括集成的步骤、时间点和负责人。

4.1.2 系统集成的具体步骤

具体集成步骤涉及：

库的集成 ：将所选文档处理库集成到项目中，使用Maven或Gradle等依赖管理工具添加库依赖。
代码开发 ：编写代码实现文档读写、解析和提取等基本功能。
功能测试 ：对集成的文档处理功能进行单元测试和集成测试，确保稳定可靠。
性能调优 ：根据测试结果进行性能调优，优化代码以提升文档处理效率。
部署上线 ：完成所有测试后，将应用部署到生产环境，并进行监控和维护。

4.2 文档处理系统的集成实例

4.2.1 集成Apache POI库的实例

下面是一个使用Apache POI库集成到Spring Boot应用的实例。实例中展示了如何配置POM文件、读取和写入Excel文件。

示例代码：

<!-- 在pom.xml中添加Apache POI依赖 -->
<dependencies>
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi</artifactId>
        <version>4.1.2</version>
    </dependency>
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>4.1.2</version>
    </dependency>
</dependencies>

import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;

public class PoiExcelExample {

    public static void main(String[] args) {
        // 创建一个Excel文件
        Workbook workbook = new XSSFWorkbook();
        Sheet datatypeSheet = workbook.createSheet("Data Types");
        Row datatypeRow = datatypeSheet.createRow(0);
        datatypeRow.createCell(0).setCellValue("String");
        datatypeRow.createCell(1).setCellValue(true);
        datatypeRow.createCell(2).setCellValue(10.0);
        datatypeRow.createCell(3).setCellValue(123456789L);

        try (FileOutputStream outputStream = new FileOutputStream("dataTypes.xlsx")) {
            workbook.write(outputStream);
            workbook.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

分析说明：

本例中我们演示了如何在Spring Boot应用中集成Apache POI库，并创建一个Excel文件，其中包含了不同数据类型的数据。
我们首先在 pom.xml 文件中添加了Apache POI的依赖。
在主函数 main 中，我们创建了一个新的Excel工作簿，向其中写入了包含字符串、布尔值、双精度浮点数和长整型的数据。
最后，我们使用 FileOutputStream 将工作簿写入到磁盘，并关闭工作簿。

这个实例展示了文档处理集成的基础，对于复杂的应用集成，还需要考虑异常处理、文件上传下载、安全性等高级功能。

4.2.2 集成PDFBox库的实例

另一个例子将展示如何将PDFBox库集成到Java Web应用中，用于处理PDF文件的文本提取。

示例代码：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PdfBoxExample {

    public static void main(String[] args) {
        try (PDDocument document = PDDocument.load(new File("example.pdf"))) {
            PDFTextStripper pdfStripper = new PDFTextStripper();
            String pdfText = pdfStripper.getText(document);
            System.out.println(pdfText);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

分析说明：

这段代码演示了如何使用PDFBox库从PDF文件中提取文本。
我们使用 PDDocument.load 方法加载PDF文件，然后创建一个 PDFTextStripper 对象来提取文本。
最后，我们打印出提取的文本内容。

集成PDFBox到Web应用时，你可能需要处理文件上传、下载等操作，这会涉及到前端技术栈和后端框架的整合，需要综合考虑安全性、异常处理、文件存储管理等多方面因素。

以上实例展示了文档处理系统集成的基本概念和实践方法。通过实际操作，可以进一步加深对系统集成的理解，并掌握文档处理库在实际项目中的应用。

5. 错误处理和性能优化

在处理文档和集成处理库的过程中，错误处理和性能优化是两个非常重要的方面。无论经验多么丰富的开发者，都可能遇到各种预料之外的问题。同时，在处理大量文档时，性能问题往往会成为系统瓶颈。本章将探讨如何在文档处理过程中进行有效的错误处理和性能优化。

5.1 错误处理的方法和技巧

5.1.1 常见错误及处理方法

文档处理过程中常见错误主要分为两大类：配置错误和运行时错误。配置错误通常是由于环境设置不当或依赖库不完整导致的，如Apache POI库缺少必要的jar包。运行时错误主要包括文件格式错误、文件损坏或操作系统的文件权限问题。

try {
    // 示例代码：尝试打开一个Excel文件
    FileInputStream inputStream = new FileInputStream(new File("example.xlsx"));
    Workbook workbook = WorkbookFactory.create(inputStream);
} catch (FileNotFoundException e) {
    // 文件未找到错误处理
    System.err.println("文件未找到，请检查文件路径是否正确！");
} catch (IOException e) {
    // 文件读取错误处理
    System.err.println("文件读取出错：" + e.getMessage());
} catch (InvalidFormatException e) {
    // 文件格式错误处理
    System.err.println("文件格式不正确：" + e.getMessage());
}

上述代码演示了如何使用try-catch块处理常见的文件操作错误。

5.1.2 异常处理的最佳实践

在进行异常处理时，应当遵循以下最佳实践：

记录详细错误信息，但不要泄露敏感信息。
不要隐藏异常，应该保留异常的原始信息。
尽可能避免捕获通用的Exception，而是针对具体的异常类型进行处理。
使用日志框架（如log4j）记录错误日志，方便后续问题追踪和分析。

5.2 性能优化的方法和技巧

5.2.1 性能优化的基本原则

在进行性能优化时，我们应遵循以下基本原则：

优化前先定位瓶颈，使用分析工具确定性能问题的根本原因。
采用合适的算法和数据结构。
减少不必要的计算和资源消耗，如关闭未使用的流和资源。
使用缓存来处理重复请求，避免重复的计算和资源加载。

5.2.2 性能优化的常用方法

性能优化的方法通常包括：

多线程处理：将任务拆分成多个子任务，并行处理。
数据批量处理：减少I/O操作次数，如一次性读取或写入大批量数据。
优化数据结构：使用更高效的集合或数据结构来提高性能。
资源复用：例如，对于Apache POI库，可重用Workbook和Sheet对象。

5.3 性能优化实例

5.3.1 Apache POI库性能优化实例

Apache POI库在处理大型Excel文件时，性能可能会成为问题。以下是一些优化策略：

// 使用SXSSFWorkbook处理大型Excel文件
SXSSFWorkbook workbook = new SXSSFWorkbook();
Sheet sheet = workbook.createSheet();

// 假设有一个大数据集需要写入Excel文件
for (int rownum = 0; rownum < 100000; rownum++) {
    Row row = sheet.createRow(rownum);
    for (int cellnum = 0; cellnum < 10; cellnum++) {
        Cell cell = row.createCell(cellnum);
        cell.setCellValue("Example Data");
    }
}

// 刷新工作表，将内存中的数据写入磁盘
for (int i = 0; i < sheet.getPhysicalNumberOfRows(); i++) {
    Row row = sheet.getRow(i);
    if (row == null) continue;
    sheet.force WorkbookFactory.create(input); // 创建一个可写的工作簿
    Sheet sheet = workbook.createSheet("New Sheet");

    // 假设有一个大数据集需要写入PDF文档
    for (int rownum = 0; rownum < 100000; rownum++) {
        Row row = sheet.createRow(rownum);
        for (int cellnum = 0; cellnum < 10; cellnum++) {
            Cell cell = row.createCell(cellnum);
            cell.setCellValue("Example Data");
        }
    }

    // 释放资源
    workbook.close();
    inputStream.close();
}

在这个例子中，我们使用了 SXSSFWorkbook ，它是 HSSF 和 XSSF 的高性能替代方案，特别适合于处理大型Excel文件。它使用了一种称为“软引用”的机制来保持数据在内存中，同时减少内存消耗。

5.3.2 PDFBox库性能优化实例

对于PDFBox库，处理大型PDF文件时，优化策略包括：

// 使用PDFTextStripper提取大型PDF文件中的文本
PDFTextStripper stripper = new PDFTextStripper();

try (PDDocument document = PDDocument.load(new File("large.pdf"))) {
    stripper.setSortByPosition(true);
    String text = stripper.getText(document);
    System.out.println(text);
} catch (IOException e) {
    e.printStackTrace();
}

在这个例子中，我们使用了 PDFTextStripper ，它支持按页面位置排序文本，有助于优化处理大型文档时的性能。同时，使用try-with-resources语句确保文件流被正确关闭。

性能优化是一个持续的过程，需要根据实际应用场景不断调整和改进。通过持续监控和分析，我们可以找到最合适的优化策略，以达到最佳的系统性能。

本文还有配套的精品资源，点击获取