怎么用pdfBox从pdf文件中提取images。

本文介绍了一种从PDF文件中提取图片的方法,通过使用Java和Apache PDFBox库实现。详细步骤包括加载PDF文档、获取所有页面、遍历页面资源并导出图片。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

仅以代码供参考(注意要加载jar包)

package com.form.test;

import java.io.Console;
import java.io.IOException;
import java.util.Iterator;
import java.util.Map;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.xobject.PDXObjectImage;

public class GetImagePdf {

public	static void main(String[] args)  {
		//System.out.print("adfasdfasdfad");
			try {
				Read_pdf();
			} catch (IOException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
		
	}

	public static void Read_pdf() throws IOException {
		PDDocument document = null;
		try {
			document = PDDocument.load("d:\\1.pdf");
		} catch (IOException ex) {
			// Console.WriteLine("" + ex);
		}

		java.util.List pages = document.getDocumentCatalog().getAllPages();
		
		System.out.print("getAllPages==============="+pages.size());
		Iterator iter = pages.iterator();
		int i = 1;
		String name = null;

		while (iter.hasNext()) {
			PDPage page = (PDPage) iter.next();
			PDResources resources = page.getResources();
			Map pageImages = resources.getImages();
			if (pageImages != null) {
				Iterator imageIter = pageImages.keySet().iterator();
				while (imageIter.hasNext()) {
					String key = (String) imageIter.next();
					PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
					image.write2file("d:\\Image" + i);
					//image.get
					i++;

				}
			}
		}
	}
}


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值