使用 Java 操作 PDF:替换(编辑)文本

 在现代软件开发中,PDF 文件的操作已经成为许多业务场景中的一个重要需求。无论是生成发票、合同还是报告标签等,PDF 文件都以其稳定的格式和良好的可移植性,成为企业日常工作中不可或缺的一部分。但是这次接到的业务是由别人提供而来的pdf进行编辑替换文本,或者移除指定字段数据。这篇博客重点介绍使用aspose库来简单实现替换(编辑)文本。

提供上手即用的工具方法,提供操作步骤,代码实例,助你一臂之力。也可以私信探讨,会持续分享自己有收获的业务+技术,可以关注我,总会用得到。

1.1 开发效率

在业务中,时间就是金钱。使用第三方库如 Aspose,可以大大提高开发效率。Aspose 提供了丰富的 API,使我们可以轻松处理 PDF 文件的创建、修改和转换,而不必从头编写复杂的代码。我们项目其实已经引入了itextpdf但是查阅了下未找到合适的api操作,故决定引入更方便,全面的库操作。

1.2 功能强大

Aspose 库提供了丰富的功能,包括:

  • 文本和图像的操作
  • 页面内容的修改
  • 表单的填充
  • PDF 的合并与拆分
  • 文件格式的转换

这些功能能够满足我们在业务中几乎所有的 PDF 操作需求。

2. 业务场景

2.1 案例背景

这里简化一下我的业务,就是物流入库需要目的仓库提供的标签(pdf),类似于箱唛(可见下图),但是其在进行报关时由于显示了公司名,个别原因有些风险,故需要屏蔽掉。这里直接提供了一个简易版本,也就是替换掉下图的ID:后面的值,我这里将其文本替换为我指定的值,也可以为空等。

3. 代码示例

以下是一个使用 Aspose 创建 PDF 文件的简单示例代码:

package com.oms.common.utils;
//导入必要的类


import com.aspose.pdf.*;

import java.util.ArrayList;
import java.util.LinkedHashSet;
import java.util.List;
import java.util.Set;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class AsposePdfUtils {

    public static void main(String[] args) throws Exception {
        //提取文本
        // 打开现有的 PDF 文档
        Document pdfDocument = new Document("D:\\wangshenao\\Desktop\\Shipment-32049652-Box-bag-label.pdf");

        // 创建 TextAbsorber 对象
        TextAbsorber textAbsorber = new TextAbsorber();

        // 接受所有页面的吸收器
        for (int page = 1; page <= pdfDocument.getPages().size(); page++) {
            pdfDocument.getPages().get_Item(page).accept(textAbsorber);
        }

        // 提取文本
        String extractedText = textAbsorber.getText();
        System.out.println("提取的文本:");
        System.out.println(extractedText);

        //        String idPattern = "(ID:\\s*\\d+)\\s*(.*)"; // 匹配ID和后面的内容
        String idPattern = "(ID:\\s*\\d+)\\s*([^\s]*)"; // 匹配ID及其后面的数字,遇到空格或换行停止
        Pattern pattern = Pattern.compile(idPattern);
        Matcher matcher = pattern.matcher(extractedText);

        // 存储找到的ID及其后面的内容
        List<String> matchedIds = new ArrayList<>();
        while (matcher.find()) {
            String id = matcher.group(1); // 获取 ID
            matchedIds.add(id); // 将后面的内容添加到列表中
            System.out.println("找到的 ID: " + id);
        }

        // 替换 ID 的过程
        for (String newId : matchedIds) {
            // 创建 TextFragmentAbsorber 对象,用于吸收文本
            System.out.println("newId = " + newId);
            TextFragmentAbsorber textAbsorber2 = new TextFragmentAbsorber(newId);

            // 处理每一页
            for (int page = 1; page <= pdfDocument.getPages().size(); page++) {
                // 在当前页中接受 TextAbsorber
                pdfDocument.getPages().get_Item(page).accept(textAbsorber2);

                // 获取文本片段并替换每个找到的文本片段
                for (TextFragment textFragment : textAbsorber2.getTextFragments()) {
                    textFragment.setText("ID: 10000"); // 替换为新ID
                }
            }
        }

        // 保存修改后的 PDF
        pdfDocument.save("D:\\wangshenao\\Desktop\\modified_Shipment50.pdf");
        System.out.println("ID 值已成功替换。");
    }
}

3.1 代码说明

        <dependency>
            <groupId>com.luhuiguo</groupId>
            <artifactId>aspose-pdf</artifactId>
            <version>23.1</version>
        </dependency>
  • 提取,其实我这里多了一步提取功能,也就是把里面的文本信息都给提取了出来,然后正则匹配,是能适配各种场景,不知道里面是什么值,只知道label,但如果你知道要替换的值,可以直接进行替换,不需要提取再替换,下面代码上手即用,可作为工具类。
    public static InputStream replaceText(String labelsUrl, String str, String newStr) throws Exception {

        InputStream inputStream = toInputStream(labelsUrl);

        // 打开现有的 PDF 文档
        Document pdfDocument = new Document(inputStream);

        // 创建 TextFragmentAbsorber 对象,用于吸收文本
        TextFragmentAbsorber textAbsorber = new TextFragmentAbsorber(str);

        // 处理每一页
        for (int page = 1; page <= pdfDocument.getPages().size(); page++) {
            // 在当前页中接受 TextAbsorber
            pdfDocument.getPages().get_Item(page).accept(textAbsorber);

            // 获取文本片段

            // 替换每个找到的文本片段
            for (TextFragment textFragment : textAbsorber.getTextFragments()) {
                textFragment.setText(newStr);
            }
        }
       return convertDocumentToInputStream(pdfDocument);
    }

4. 总结

上述步骤如果遇到问题,或自己的业务场景,可以在下面一起分析实现,一群人抱团!!会持续分享工作中遇到的业务及技术,可以关注一起探讨。(偷感很重的小猿)


Java中,可以使用iText库来操作PDF文档并实现文本替换功能。iText是一个强大的开源工具,用于处理PDF文件,包括读取、编辑和生成PDF。如果你想替换PDF中的文本,可以按照以下步骤操作: 1. **添加依赖**:首先需要在项目中引入iText库,如果你使用Maven,可以在pom.xml文件中添加如下依赖: ```xml <dependency> <groupId>com.itextpdf</groupId> <artifactId>itextpdf</artifactId> <version>最新版本号</version> </dependency> ``` 2. **加载PDF**:使用`PdfReader`类打开PDF文件,获取你要操作的`PdfStamper`对象来进行修改。 ```java PdfReader reader = new PdfReader("input.pdf"); PdfStamper stamper = new PdfStamper(reader, new FileOutputStream("output.pdf")); ``` 3. **定位文本**:通过`AcroFields`对象找到特定字段(如果PDF中有表单),或者使用`PdfCopy`将页面复制到一个新的文档以便修改。 ```java AcroFields fields = stamper.getAcroFields(); String oldText = fields.getField("fieldName").getString(); ``` 4. **替换文本**:使用`PdfWriter`的`updatePageContent()`方法更新页面内容,并将新文本设置到指定位置。 ```java PdfImportedPage page = stamper.getUnderlingWriter().importPage(reader, 0); // 假设我们想要替换第一页 PdfContentByte canvas = stamper.getOverContent(page); canvas.beginText(); canvas.drawString(oldX, oldY, newText); canvas.endText(); ``` 5. **保存并关闭**:完成操作后记得关闭`PdfReader`、`PdfStamper`和`FileOutputStream`。 ```java stamper.close(); reader.close(); ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值