JAVA HTML转PDF

本文介绍了一种使用Java实现的HTML到PDF转换工具,详细展示了如何处理HTML标签闭合问题,支持中文显示,并提供了跨平台的字体解决方案。

用到的依赖:

		<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>
        <dependency>
            <groupId>com.itextpdf.tool</groupId>
            <artifactId>xmlworker</artifactId>
            <version>5.5.9</version>
        </dependency>
        <dependency>
            <groupId>org.xhtmlrenderer</groupId>
            <artifactId>flying-saucer-pdf-itext5</artifactId>
            <version>9.0.3</version>
        </dependency>
        <!--工具类-->
        <dependency>
            <groupId>commons-lang</groupId>
            <artifactId>commons-lang</artifactId>
            <version>2.5</version>
        </dependency>
        <dependency>
            <groupId>com.google.zxing</groupId>
            <artifactId>core</artifactId>
            <version>3.3.3</version>
        </dependency>
        <dependency>
            <groupId>com.google.zxing</groupId>
            <artifactId>javase</artifactId>
            <version>3.3.3</version>
        </dependency>

核心代码:

package org.com.util;

import com.itextpdf.text.pdf.BaseFont;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.xhtmlrenderer.pdf.ITextFontResolver;
import org.xhtmlrenderer.pdf.ITextRenderer;

import java.io.OutputStream;

public class FileTypeConvertUtil {

    /**
     * 将HTML转成PD格式的文件。html文件的格式比较严格
     * @param htmlText  html内容
     * @param os   pdf存储文件输出流 os = new FileOutputStream(new File("路径"))
     * @throws Exception
     */
    public static void html2pdf(String htmlText, OutputStream os) throws Exception {
        Document document = Jsoup.parse(htmlText);
        /*手动为一些标签添加闭合,这一步至关重要*/
        Elements meta = document.getElementsByTag("meta");
        String html = document.html();
        for (Element link : meta) {
            String s = link.outerHtml();
            String s1 = s.replace("/>", ">");
            html = html.replace(s, s1 + "</meta>");
        }
        Elements link1 = document.getElementsByTag("link");
        for (Element link : link1) {
            String s = link.outerHtml();
            String s1 = s.replace("/>", ">");
            html = html.replace(s, s1 + "</link>");

        }
        html = html.replaceAll("<br>", "<br/>");
        html = html.replaceAll("&nbsp", "&#160");

        ITextRenderer renderer = new ITextRenderer();
        renderer.setDocumentFromString(html);
        // step 3 解决中文支持
        ITextFontResolver fontResolver = renderer.getFontResolver();
        if(getCurrentOperatingSystem().contains("linux")){
            fontResolver.addFont("/usr/share/fonts/chiness/simsun.ttc", BaseFont.IDENTITY_H, BaseFont.EMBEDDED);
        }else{
            fontResolver.addFont("C:/Windows/Fonts/simsun.ttc", BaseFont.IDENTITY_H, BaseFont.NOT_EMBEDDED);
        }

        renderer.layout();
        renderer.createPDF(os);
        os.close();
    }

	/**
	 *  当前的操作系统
	 */
    public static String getCurrentOperatingSystem(){
        String os = System.getProperty("os.name").toLowerCase();
        return os;
    }

}

注意事项:
通过itext这种古老的方法转换,受限的条件颇多,其中一条严格的规定就是:标签必须闭合,例如:
会报错,而则可以正常转换。
如果不能识别中文字体,那么检查是否已经安装了相对应的字体,路径字体详见代码。

(本文完!希望对大家有帮助,转载需附本文链接!)

### Java 实现 HTML PDF 的方法 在 Java 中,将 HTML 内容换为 PDF 文件有多种方式。以下介绍两种常见的实现方法,并结合实际需求进行选择。 #### 使用 iText 库进行换 iText 是一个功能强大的 PDF 处理库,它提供了 `html2pdf` 模块用于将 HTML 换为 PDF。通过 `HtmlConverter.convertToPdf()` 方法可以快速完成换任务,如下代码所示: ```java import com.itextpdf.html2pdf.HtmlConverter; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; public class HtmlToPdfConverter { public static void main(String[] args) { String htmlFilePath = "index.html"; String pdfFilePath = "output.pdf"; try { HtmlConverter.convertToPdf(new FileInputStream(htmlFilePath), new FileOutputStream(pdfFilePath)); System.out.println("PDF文件已成功生成:" + pdfFilePath); } catch (IOException e) { e.printStackTrace(); } } } ``` 此方法适用于结构较为规范的 HTML 文件[^1]。然而,在实际业务场景中,尤其是富文本编辑器生成的内容,其格式可能不够标准且样式复杂,此时使用 iText 可能会导致样式丢失或布局错乱。 #### 使用 WKHtmlToPdf 进行换 针对 HTML 格式不规范的问题,可以选择基于 **WKHtmlToPdf** 的解决方案。WKHtmlToPdf 是一个基于 WebKit 引擎的开源工具,能够更准确地渲染 HTML 和 CSS,支持复杂的样式和布局。可以通过调用命令行或集成第三方封装库(如 `wkhtmltopdf`)来实现 Java 与 WKHtmlToPdf 的交互。 例如,使用命令行执行的方式如下: ```bash wkhtmltopdf http://example.com output.pdf ``` 在 Java 中可通过 `ProcessBuilder` 或 `Runtime.getRuntime().exec()` 来调用该命令并处理输出流。 此外,也可以选择一些封装好的 Java 库,例如 [snakescribe/wkhtmltoimage](https://github.com/snakesscribe/wkhtmltoimage) 或其他类似的库,以简化开发流程。 #### 注意事项 - **样式兼容性问题**:某些 CSS 特性在 iText 中可能无法正确解析,例如渐变背景 `background: linear-gradient(...)` 就可能导致样式失效。这种情况下建议改用更简单的样式定义,或者直接使用 WKHtmlToPdf 工具链进行处理[^3]。 - **性能优化**:对于大规模 HTML 文件或频繁的换需求,应考虑缓存机制、异步处理以及资源释放等问题,以提升系统响应速度和稳定性。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_函数_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值