C# PDF转HTML字符串

本文介绍了如何使用Aspose.PDF库将PDF文件转换为HTML格式,保存到本地并进行版权文字移除,然后对HTML进行Base64编码以便前端显示。

需要nuget安装Aspose.PDF插件,本文使用23.10.0版本

一、获取PDF文件,通过Aspose.Pdf.Document 以Html格式 保存到某个路径;再读取该html返回字符串。

//html文件保存路径
string filePath = dirPath + "xxx.html";
if (!File.Exists(filePath))
{
    //获取pdf文件流
    Byte[] pdfByte = ……;
    var document = new Aspose.Pdf.Document(new MemoryStream(pdfByte));
    document.Save(filePath, SaveFormat.Html);
}

//读取刚刚保存的文件  
string file = File.ReadAllText(filePath);
string oldPath = "xxx_files";
string newPath = ConfigurationManager.AppSettings["NurseHtmlIP"] + "/" + oldPath;
//剔除版权文字;替换本地css和图片路径 为 http路径,使得在第三方接口可调用
string targetHtml = file.Replace("Evaluation Only. Created with Aspose.PDF. Copyright 2002-2023 Aspose Pty Ltd.","").Replace(oldPath, newPath);
return targetHtml;

二、在用Base64加密,避免格式错误。

string base64Html = System.Convert.ToBase64String(System.Text.Encoding.UTF8.GetBytes(targetHtml)));

 三、前端显示,js方法。

//base64转字符串
function base64ToString(str) {
    return decodeURIComponent(atob(str).split('').map(function (c) {
        return '%' + ('00' + c.charCodeAt(0).toString(16)).slice(-2);
    }).join(''));
}

var showInfo = function (htmlStr) {
    //把html显示到前端
    $("#ele_target").html(base64ToString(htmlStr));
}

四、扩展:windows使用bat脚本删除临时文件(配合windows定时任务)

注意:有中文的路径,bat文件需要用ANSI编码

:: 删除文件夹内所有文件和文件夹
:: 打开日志打印
@echo on
 
:: 目标文件目录
set log_dir="C:\Windows\Temp\CustomTempFonts"
 
:: 保留日志天数
set bak_dat=0
 
:: 删除日志文件;*.txt匹配txt文件,也可用*删除所有文件;del /S /Q @file表示不经过确认强制删除文件
forfiles /p %log_dir% /S /M *.txt /D -%bak_dat% /C "cmd /c echo [delete operation @relpath file.....] & echo. & del /S /Q @file"

:: 进入文件夹A目录
cd %log_dir%
:: 对文件夹进行遍历,删除文件夹
for /D %%i in (*) DO (
	echo 删文件夹:%%i 
	rd /S /Q %%i
)

:: 等待输入结束
pause

C#中,有多种方法可以将HTML字符串写入PDF文件,以下为你介绍两种常见的实现方式: ### 使用iText7 iText7是一个强大的PDF处理库,可以将HTML字符串换为PDF文件。以下是示例代码: ```csharp using iText.Html2pdf.Resolver.Font; using iText.Html2pdf; using System.IO; // HTML 字符串 string htmlContent = @" <html> <head> <title>Net 分享</title> </head> <body> <h1></h1> <h1>Net 分享</h1> <p>欢迎使用 iText7-一个 HTML PDF </p> </body> </html>"; // 输出 PDF 文件路径 string pdfFilePath = "output_from_string.pdf"; HtmlConverter.ConvertToPdf(htmlContent, new FileStream(pdfFilePath, FileMode.Create), new ConverterProperties().SetFontProvider(new DefaultFontProvider(true, true, true))); // 将 HTML 字符串换为 PDF //HtmlConverter.ConvertToPdf(htmlContent, new FileStream(pdfFilePath, FileMode.Create)); System.Console.WriteLine("HTML 字符串已成功换为 PDF"); ``` 上述代码通过`HtmlConverter.ConvertToPdf`方法将HTML字符串换为PDF文件,并保存到指定路径。同时,使用`DefaultFontProvider`来处理字体问题,确保PDF文件能正确显示文字[^1]。 ### 使用OpenHtmlToPdf OpenHtmlToPdf是基于wkhtmltopdf二次开发的插件,也能实现HTML字符串PDF文件的换。示例代码如下: ```csharp using OpenHtmlToPdf; using System; using System.Net; using System.Text; using (WebClient wc = new WebClient()) { wc.Encoding = Encoding.UTF8; string html = "<html><body><h1>示例标题</h1><p>这是一个示例段落。</p></body></html>"; var document = Pdf.From(html) .OfSize(OpenHtmlToPdf.PaperSize.LetterRotated) .WithGlobalSetting("margin.top", "0.4cm"); if (IntPtr.Size == 4) { document = document.WithObjectSetting("load.zoomFactor", "1.5"); } var result = document.Content(); // 这里可以将结果保存到文件 File.WriteAllBytes("output.pdf", result); // 如果是在Web环境中返回PDF文件 // HttpContext.Current.Response.Clear(); // HttpContext.Current.Response.AddHeader("content-disposition", "attachment;filename=PDF" + DateTime.Now.ToString("yyyyMMddhhmmss") + ".pdf"); // HttpContext.Current.Response.ContentType = "application/octet-stream"; // HttpContext.Current.Response.BinaryWrite(result); // HttpContext.Current.Response.End(); } ``` 此代码通过`Pdf.From`方法传入HTML字符串,对PDF的页面大小、边距等进行设置,最后将生成的PDF内容保存到文件中。若在Web环境中,还可以将PDF文件作为响应返回给客户端[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值