如何精准地提取PDF格式中嵌入的表格数据,并将其无缝转换为更加易于分析和操作的形式,如纯文本、CSV文件或Excel工作表,是一项重要的文档处理技巧。使用Java,我们可以简单地实现这一过程。本文将介绍如何利用Java从PDF文档提取表格数据,并写入文本文件、CSV文件以及Excel工作表。
本文所使用的方法提取PDF表格主要需要免费的Free Spire.PDF for Java库,可下载导入或通过Maven导入:
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.pdf.free</artifactId>
<version>9.13.0</version>
</dependency>
提取PDF表格需要用到库中的PdfTableExtractor
类。我们可以为载入的PDF文件创建PdfTableExtractor
对象,然后使用PdfTableExtractor.extractTable()
方法根据页面在文档中的参数提取指定PDF页面上所有表格,最后再使用PdfTable.getText()
方法即可获取表格中的数据。以下是一般操作步骤示例:
- 创建
PdfDocument
对象并使用PdfDocument.loadFromFile()
方法载入PDF文档。 - 使用载入的PDF文档创建
PdfTableExtractor
对象。 - 使用
PdfTableExtractor.extractTable()
方法提取每个页面上的表格。 - 使用
PdfTable.getText()
方法获取PDF表格的单元格数据。
使用上述方法获取表格数据后,我们就可以将其写入文本文件,或搭配其他工具制作CSV或Excel文件了。
提取PDF表格数据写入文本文件
使用PdfTableExtractor.extractTable()
方法提取表格并使用PdfTable.getText()
方法获取单元格数据后,我们可以通过构建字符串并写入文本文件来实现提取表格并保存为文本文件的目的。以下是详细操作步骤:
- 导入所需模块。
- 创建
PdfDocument
对象并使用PdfDocument.loadFromFile()
方法载入PDF文档。 - 使用载入的PDF文档创建
PdfTableExtractor
对象。 - 遍历页面,使用
PdfTableExtractor.extractTable()
方法提取每个页面上的所有表格。 - 遍历提取到的表格,为每个表格创建一个
StringBuilder
对象。 - 遍历表格中的行和列,使用
PdfTable.getText()
方法获取每个单元格的数据并去除换行符。然后将单元格数据添加到StringBuilder
对象。 - 将
StringBuilder
对象写入文本文件。 - 释放资源。
代码示例
import com.spire.pdf.PdfDocument;
import com.spire.pdf.utilities.PdfTable;
import com.spire.pdf.utilities.PdfTableExtractor;
import java.io.FileWriter;
import java.io.IOException;
public class 从PDF中提取文本 {
public static void main(String[] args) throws IOException {
// 创建一个PdfDocument对象
PdfDocument pdf = new PdfDocument();
// 加载一个PDF文档
pdf.loadFromFile("Sample.pdf");
// 创建一个PdfTableExtractor对象
PdfTableExtractor extractor = new PdfTableExtractor(pdf);
// 从每一页中提取表格
for (int pageIndex = 0; pageIndex < pdf.getPages().getCount(); pageIndex++) {
PdfTable[] tables = extractor.extractTable(pageIndex);
// 如果表格不为空,则遍历表格
if (tables != null) {
for (int tableIndex = 0; tableIndex < tables.length; tableIndex++) {
PdfTable table = tables[tableIndex];
// 创建一个StringBuilder对象
StringBuilder tableText = new StringBuilder();
// 遍历行和列
for (int rowIndex = 0; rowIndex < table.getRowCount(); rowIndex++) {
for (int colIndex = 0; colIndex < table.getColumnCount(); colIndex++) {
// 获取单元格文本并移除换行符