java获取pdf指定文本位置

最新推荐文章于 2023-08-09 16:11:32 发布

原创最新推荐文章于 2023-08-09 16:11:32 发布 · 2.5k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#java

JAVA 专栏收录该内容

3 篇文章

订阅专栏

本文介绍如何使用iTextPDF库在PDF文档中搜索并定位包含特定文本的区域，通过ImageRenderListener实现文字识别，然后对找到的文字添加图像水印。

        PdfReader reader = null;
        FileOutputStream fileOutputStream = null;
        PdfStamper stamper = null;
        try {
            reader = new PdfReader(inputpdf);
            fileOutputStream = new FileOutputStream(outpdf);
            //新建一个PDF解析对象
            PdfReaderContentParser parser = new PdfReaderContentParser(reader);

            //包含了PDF页面的信息，作为处理的对象
            stamper = new PdfStamper(reader, fileOutputStream);
            for (int i = 1; i <= reader.getNumberOfPages(); i++) {
                PdfContentByte pdfContentByte = stamper.getOverContent(i);
                //新建一个ImageRenderListener对象，该对象实现了RenderListener接口，作为处理PDF的主要类
                TestRenderListener listener = new TestRenderListener();
                //解析PDF，并处理里面的文字
                parser.processContent(i, listener);
                //获取文字的矩形边框
                List<Rectangle2D.Float> rectText = listener.rectText;
                List<String> textList = listener.textList;
                List<Float> listY = listener.listY;
                List<Map<String, Rectangle2D.Float>> list_text = listener.rows_text_rect;
                for (String strtext : textList) {
                    if (strtext.contains("指定文本")) {

                        int index = textList.indexOf(strtext);
                        Rectangle2D.Float position = rectText.get(index);


                        Image image = Image.getInstance(imgpath);
                        image.setAbsolutePosition(position.x, position.y);
                        image.scaleAbsoluteHeight(119);
                        image.scaleAbsoluteWidth(119);
                        pdfContentByte.addImage(image);

                    }
                }
            }
            if (stamper != null) {
                stamper.close();
            }
            if (reader != null) {
                reader.close();
            }
            return true;
        } catch (Exception e) {
            e.printStackTrace();
            return false;
        }

TestRenderListener类

import java.awt.Color;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Map;

import javax.imageio.ImageIO;

import com.itextpdf.awt.geom.Rectangle2D;
import com.itextpdf.awt.geom.RectangularShape;
import com.itextpdf.text.BaseColor;
import com.itextpdf.text.Rectangle;
import com.itextpdf.text.pdf.PdfContentByte;
import com.itextpdf.text.pdf.parser.ImageRenderInfo;
import com.itextpdf.text.pdf.parser.RenderListener;
import com.itextpdf.text.pdf.parser.TextRenderInfo;

public class TestRenderListener implements RenderListener {
    //用来存放文字的矩形
    List<Rectangle2D.Float> rectText = new ArrayList<Rectangle2D.Float>();
    //用来存放文字
    List<String> textList = new ArrayList<String>();
    //用来存放文字的y坐标
    List<Float> listY = new ArrayList<Float>();
    //用来存放每一行文字的坐标位置
    List<Map<String, Rectangle2D.Float>> rows_text_rect = new ArrayList<Map<String, Rectangle2D.Float>>();
    //PDF文件的路径
    protected String filepath = null;

    public TestRenderListener() {
    }

    //step 2,遇到"BT"执行
    @Override
    public void beginTextBlock() {
        // TODO Auto-generated method stub
    }

    //step 3

    /**
     * 文字主要处理方法
     */
    @Override
    public void renderText(TextRenderInfo renderInfo) {
        //获取文字的下面的矩形
        //Rectangle2D.Float rectBase = renderInfo.getBaseline().getBoundingRectange();


        String text = renderInfo.getText();
        if (text.length() > 0) {
            RectangularShape rectBase = renderInfo.getBaseline().getBoundingRectange();
            //获取文字下面的矩形
            Rectangle2D.Float rectAscen = renderInfo.getAscentLine().getBoundingRectange();
            //计算出文字的边框矩形
            float leftX = (float) rectBase.getMinX();
            float leftY = (float) rectBase.getMinY() - 1;
            float rightX = (float) rectAscen.getMaxX();
            float rightY = (float) rectAscen.getMaxY() + 1;

            Rectangle2D.Float rect = new Rectangle2D.Float(leftX, leftY, rightX - leftX, rightY - leftY);

            System.out.println("text:" + text + "--x:" + rect.x + "--y:" + rect.y + "--width:" + rect.width + "--height:" + rect.height);

            if (listY.contains(rect.y)) {
                int index = listY.indexOf(rect.y);
                float tempx = rect.x > rectText.get(index).x ? rectText.get(index).x : rect.x;
                rectText.set(index, new Rectangle2D.Float(tempx, rect.y, rect.width + rectText.get(index).width, rect.height));
                textList.set(index, textList.get(index) + text);
            } else {
                rectText.add(rect);
                textList.add(text);
                listY.add(rect.y);
            }

            Map<String, Rectangle2D.Float> map = new HashMap<String, Rectangle2D.Float>();
            map.put(text, rect);
            rows_text_rect.add(map);
        }
    }

    //step 4(最后执行的，只执行一次)，遇到“ET”执行
    @Override
    public void endTextBlock() {
        // TODO Auto-generated method stub
    }

    //step 1(图片处理方法)
    @Override
    public void renderImage(ImageRenderInfo renderInfo) {

    }
}