PDFLib (8.0.2)中文路径处理使用UTF8

本文介绍如何在PDFLib中处理多字节编码到UTF8的转换问题,并确保正确生成PDF文档。文章详细解释了PDF_begin_document函数的使用方法,特别是如何处理Unicode文件名在Windows平台上的应用。此外,还提供了具体的C++代码示例,演示了如何实现从GBK到UTF8的转换,并添加BOM标记。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在PDFLib中,打开一个PDF文档,会调用PDF_begin_document,文件名称是以Unicode编码的,由于工程是多字节编码,打算转成UTF8 

定义:int PDF_begin_document(PDF *p, const char *filename, int len, const char *optlist)

C++ Java int begin_document(String filename, String optlist)

参数说明
filename (名称字符串,但只在 Windows 上支持 Unicode 文件名)将生成 PDF 输出文件的绝对或相对文件名。如果 filename 为空,则将在内存中生成 PDF 文档,而不创建文件,因而只能从客户端通过 PDF_get_buffer( ) 函数来获取生成的 PDF 数据。特殊文件名 »–« 可用来在 stdout 通道上生成 PDF。在 Windows 上,可以使用 UNC 路径或映射网络驱动器。
len (仅用于 C 语言绑定)UTF-16 字符串的 filename 长度(以字节为单位)。如果 len=0,则必须提供以 null 终结的字符串。optlist 选项列表,根据表 2.3 指定文档选项。PDF_end_document( ) 中指定的选项优先于PDF_begin_document( ) 中指定的相同选项。可以使用下列选项:
附件、autoxmp、compatibility、destination、errorpolicy、flush、groups、hypertext-encoding、
inmemory、labels、lang、linearize、master- password、metadata、moddate、openmode、
optimize、pagelayout、pdfa、pdfx、permissions、recordsize、search、tagged、tempdirname、

temp-filenames、uri、user-password、viewer-preferences。

多字节转UTF8 网上很多 例如:

void ConvertGBKToUtf8(std::string& amp, std::string strGBK)
{ 
int len=MultiByteToWideChar(CP_ACP, 0, (LPCSTR)strGBK.c_str(), -1, NULL,0); 
unsigned short * wszUtf8 = new unsigned short[len+1]; 
memset(wszUtf8, 0, len * 2 + 2); 
MultiByteToWideChar(CP_ACP, 0, (LPCSTR)strGBK.c_str(), -1, (LPWSTR)wszUtf8, len); 
len = WideCharToMultiByte(CP_UTF8, 0, (LPCWSTR)wszUtf8, -1, NULL, 0, NULL, NULL); 
char *szUtf8=new char[len + 1]; 
memset(szUtf8, 0, len + 1); 
WideCharToMultiByte (CP_UTF8, 0, (LPCWSTR)wszUtf8, -1, szUtf8, len, NULL,NULL); 
//strGBK = szUtf8; 
amp=szUtf8;
delete[] szUtf8; 
delete[] wszUtf8; 
}


研究发现,UTF8前面需要加BOM(Byte Order Mark,就是字节序标记)

UTF- 8编码的文件中,BOM占三个字节。字节标记序为 EF BB BF

上面转换来的string 还要在前面加上3个字节,为了简单,两个字符串拼接起来,这样就可以处理中文的

char Bom[4]={0xEF,0xBB,0xBF,0};
filenameBom=Bom;
filenameBom=filenameBom+filename;
PDF_begin_document(p,filenameBom.c_str(),0, ""); 


public static void main(String[] args) throws TesseractException { // 识别图片的路径(修改为自己的图片路径) String path = "D:\\pdf\\Snipaste_2025-07-17_07-59-02.jpg"; // 语言库位置(修改为跟自己语言库文件夹的路径) String lagnguagePath = "D:\\maven_use\\lingxi-lhc\\lingxi-ai-extend\\lingxi-ai-comparison\\src\\main\\resources\\tessdata"; File file = new File(path); ITesseract instance = new Tesseract(); // 设置训练库的位置 instance.setDatapath(lagnguagePath); instance.setLanguage("eng"); instance.setPageSegMode(6); instance.setOcrEngineMode(1); String result = instance.doOCR(file); System.out.println(result); }C:\Java\jdk-17\bin\java.exe "-javaagent:D:\work\IntelliJ IDEA 2024.3\lib\idea_rt.jar=51929:D:\work\IntelliJ IDEA 2024.3\bin" -Dfile.encoding=UTF-8 -classpath D:\maven_use\lingxi-lhc\lingxi-ai-extend\lingxi-ai-comparison\target\classes;D:\maven_use\repository\org\springframework\boot\spring-boot-starter-web\3.4.4\spring-boot-starter-web-3.4.4.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-starter\3.4.4\spring-boot-starter-3.4.4.jar;D:\maven_use\repository\org\springframework\boot\spring-boot\3.4.4\spring-boot-3.4.4.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-autoconfigure\3.4.4\spring-boot-autoconfigure-3.4.4.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-starter-logging\3.4.4\spring-boot-starter-logging-3.4.4.jar;D:\maven_use\repository\ch\qos\logback\logback-classic\1.5.18\logback-classic-1.5.18.jar;D:\maven_use\repository\ch\qos\logback\logback-core\1.5.18\logback-core-1.5.18.jar;D:\maven_use\repository\org\apache\logging\log4j\log4j-to-slf4j\2.24.3\log4j-to-slf4j-2.24.3.jar;D:\maven_use\repository\org\apache\logging\log4j\log4j-api\2.24.3\log4j-api-2.24.3.jar;D:\maven_use\repository\org\slf4j\jul-to-slf4j\2.0.17\jul-to-slf4j-2.0.17.jar;D:\maven_use\repository\jakarta\annotation\jakarta.annotation-api\2.1.1\jakarta.annotation-api-2.1.1.jar;D:\maven_use\repository\org\springframework\spring-core\6.2.5\spring-core-6.2.5.jar;D:\maven_use\repository\org\springframework\spring-jcl\6.2.5\spring-jcl-6.2.5.jar;D:\maven_use\repository\org\yaml\snakeyaml\2.3\snakeyaml-2.3.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-starter-json\3.4.4\spring-boot-starter-json-3.4.4.jar;D:\maven_use\repository\com\fasterxml\jackson\datatype\jackson-datatype-jdk8\2.18.3\jackson-datatype-jdk8-2.18.3.jar;D:\maven_use\repository\com\fasterxml\jackson\datatype\jackson-datatype-jsr310\2.18.3\jackson-datatype-jsr310-2.18.3.jar;D:\maven_use\repository\com\fasterxml\jackson\module\jackson-module-parameter-names\2.18.3\jackson-module-parameter-names-2.18.3.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-starter-tomcat\3.4.4\spring-boot-starter-tomcat-3.4.4.jar;D:\maven_use\repository\org\apache\tomcat\embed\tomcat-embed-core\10.1.39\tomcat-embed-core-10.1.39.jar;D:\maven_use\repository\org\apache\tomcat\embed\tomcat-embed-el\10.1.39\tomcat-embed-el-10.1.39.jar;D:\maven_use\repository\org\apache\tomcat\embed\tomcat-embed-websocket\10.1.39\tomcat-embed-websocket-10.1.39.jar;D:\maven_use\repository\org\springframework\spring-web\6.2.5\spring-web-6.2.5.jar;D:\maven_use\repository\org\springframework\spring-beans\6.2.5\spring-beans-6.2.5.jar;D:\maven_use\repository\io\micrometer\micrometer-observation\1.14.5\micrometer-observation-1.14.5.jar;D:\maven_use\repository\io\micrometer\micrometer-commons\1.14.5\micrometer-commons-1.14.5.jar;D:\maven_use\repository\org\springframework\spring-webmvc\6.2.5\spring-webmvc-6.2.5.jar;D:\maven_use\repository\org\springframework\spring-aop\6.2.5\spring-aop-6.2.5.jar;D:\maven_use\repository\org\springframework\spring-context\6.2.5\spring-context-6.2.5.jar;D:\maven_use\repository\org\springframework\spring-expression\6.2.5\spring-expression-6.2.5.jar;D:\maven_use\repository\org\apache\pdfbox\pdfbox\2.0.29\pdfbox-2.0.29.jar;D:\maven_use\repository\org\apache\pdfbox\fontbox\2.0.29\fontbox-2.0.29.jar;D:\maven_use\repository\commons-logging\commons-logging\1.2\commons-logging-1.2.jar;D:\maven_use\repository\org\json\json\20231013\json-20231013.jar;D:\maven_use\repository\com\hankcs\hanlp\portable-1.8.4\hanlp-portable-1.8.4.jar;D:\maven_use\lingxi-lhc\lingxi-ai-common\lingxi-ai-common-core\target\classes;D:\maven_use\repository\org\springframework\spring-context-support\6.2.5\spring-context-support-6.2.5.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-starter-validation\3.4.4\spring-boot-starter-validation-3.4.4.jar;D:\maven_use\repository\org\hibernate\validator\hibernate-validator\8.0.2.Final\hibernate-validator-8.0.2.Final.jar;D:\maven_use\repository\jakarta\validation\jakarta.validation-api\3.0.2\jakarta.validation-api-3.0.2.jar;D:\maven_use\repository\com\fasterxml\classmate\1.7.0\classmate-1.7.0.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-starter-aop\3.4.4\spring-boot-starter-aop-3.4.4.jar;D:\maven_use\repository\org\aspectj\aspectjweaver\1.9.23\aspectjweaver-1.9.23.jar;D:\maven_use\repository\org\apache\commons\commons-lang3\3.17.0\commons-lang3-3.17.0.jar;D:\maven_use\repository\jakarta\servlet\jakarta.servlet-api\6.0.0\jakarta.servlet-api-6.0.0.jar;D:\maven_use\repository\cn\hutool\hutool-core\5.8.35\hutool-core-5.8.35.jar;D:\maven_use\repository\cn\hutool\hutool-http\5.8.35\hutool-http-5.8.35.jar;D:\maven_use\repository\cn\hutool\hutool-extra\5.8.35\hutool-extra-5.8.35.jar;D:\maven_use\repository\cn\hutool\hutool-setting\5.8.35\hutool-setting-5.8.35.jar;D:\maven_use\repository\cn\hutool\hutool-log\5.8.35\hutool-log-5.8.35.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-configuration-processor\3.4.4\spring-boot-configuration-processor-3.4.4.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-properties-migrator\3.4.4\spring-boot-properties-migrator-3.4.4.jar;D:\maven_use\repository\org\springframework\boot\spring-boot-configuration-metadata\3.4.4\spring-boot-configuration-metadata-3.4.4.jar;D:\maven_use\repository\com\vaadin\external\google\android-json\0.0.20131108.vaadin1\android-json-0.0.20131108.vaadin1.jar;D:\maven_use\repository\io\github\linpeilie\mapstruct-plus-spring-boot-starter\1.4.6\mapstruct-plus-spring-boot-starter-1.4.6.jar;D:\maven_use\repository\io\github\linpeilie\mapstruct-plus\1.4.6\mapstruct-plus-1.4.6.jar;D:\maven_use\repository\org\mapstruct\mapstruct\1.5.5.Final\mapstruct-1.5.5.Final.jar;D:\maven_use\repository\io\github\linpeilie\mapstruct-plus-object-convert\1.4.6\mapstruct-plus-object-convert-1.4.6.jar;D:\maven_use\repository\org\lionsoul\ip2region\2.7.0\ip2region-2.7.0.jar;D:\maven_use\repository\net\sourceforge\tess4j\tess4j\5.8.0\tess4j-5.8.0.jar;D:\maven_use\repository\net\java\dev\jna\jna\5.13.0\jna-5.13.0.jar;D:\maven_use\repository\com\github\jai-imageio\jai-imageio-core\1.4.0\jai-imageio-core-1.4.0.jar;D:\maven_use\repository\org\apache\pdfbox\pdfbox-tools\2.0.29\pdfbox-tools-2.0.29.jar;D:\maven_use\repository\org\apache\pdfbox\pdfbox-debugger\2.0.29\pdfbox-debugger-2.0.29.jar;D:\maven_use\repository\org\apache\pdfbox\jbig2-imageio\3.0.4\jbig2-imageio-3.0.4.jar;D:\maven_use\repository\commons-io\commons-io\2.15.0\commons-io-2.15.0.jar;D:\maven_use\repository\net\sourceforge\lept4j\lept4j\1.18.1\lept4j-1.18.1.jar;D:\maven_use\repository\org\jboss\jboss-vfs\3.2.17.Final\jboss-vfs-3.2.17.Final.jar;D:\maven_use\repository\org\jboss\logging\jboss-logging\3.6.1.Final\jboss-logging-3.6.1.Final.jar;D:\maven_use\repository\org\slf4j\slf4j-api\2.0.17\slf4j-api-2.0.17.jar;D:\maven_use\repository\org\openpnp\opencv\4.5.5-1\opencv-4.5.5-1.jar;D:\maven_use\repository\com\fasterxml\jackson\core\jackson-databind\2.18.3\jackson-databind-2.18.3.jar;D:\maven_use\repository\com\fasterxml\jackson\core\jackson-annotations\2.18.3\jackson-annotations-2.18.3.jar;D:\maven_use\repository\com\fasterxml\jackson\core\jackson-core\2.18.3\jackson-core-2.18.3.jar;D:\maven_use\repository\com\fasterxml\jackson\dataformat\jackson-dataformat-xml\2.18.3\jackson-dataformat-xml-2.18.3.jar;D:\maven_use\repository\org\codehaus\woodstox\stax2-api\4.2.2\stax2-api-4.2.2.jar;D:\maven_use\repository\com\fasterxml\woodstox\woodstox-core\7.0.0\woodstox-core-7.0.0.jar;D:\maven_use\repository\jakarta\xml\bind\jakarta.xml.bind-api\4.0.0\jakarta.xml.bind-api-4.0.0.jar;D:\maven_use\repository\jakarta\activation\jakarta.activation-api\2.1.3\jakarta.activation-api-2.1.3.jar;D:\maven_use\repository\org\glassfish\jaxb\jaxb-runtime\4.0.2\jaxb-runtime-4.0.2.jar;D:\maven_use\repository\org\glassfish\jaxb\jaxb-core\4.0.5\jaxb-core-4.0.5.jar;D:\maven_use\repository\org\eclipse\angus\angus-activation\2.0.2\angus-activation-2.0.2.jar;D:\maven_use\repository\org\glassfish\jaxb\txw2\4.0.5\txw2-4.0.5.jar;D:\maven_use\repository\com\sun\istack\istack-commons-runtime\4.1.2\istack-commons-runtime-4.1.2.jar;D:\maven_use\repository\org\ehcache\ehcache\3.10.8\ehcache-3.10.8.jar;D:\maven_use\repository\javax\cache\cache-api\1.1.1\cache-api-1.1.1.jar com.luxsan.service.bb 18:42:34.862 [main] ERROR net.sourceforge.tess4j.Tesseract -- Not a JPEG file: starts with 0x89 0x50 javax.imageio.IIOException: Not a JPEG file: starts with 0x89 0x50 at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.readImageHeader(Native Method) at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.readNativeHeader(JPEGImageReader.java:739) at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.checkTablesOnly(JPEGImageReader.java:354) at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.getNumImagesOnThread(JPEGImageReader.java:434) at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.getNumImages(JPEGImageReader.java:400) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:236) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:210) at com.luxsan.service.bb.main(bb.java:32) Exception in thread "main" net.sourceforge.tess4j.TesseractException: javax.imageio.IIOException: Not a JPEG file: starts with 0x89 0x50 at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:261) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:210) at com.luxsan.service.bb.main(bb.java:32) Caused by: javax.imageio.IIOException: Not a JPEG file: starts with 0x89 0x50 at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.readImageHeader(Native Method) at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.readNativeHeader(JPEGImageReader.java:739) at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.checkTablesOnly(JPEGImageReader.java:354) at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.getNumImagesOnThread(JPEGImageReader.java:434) at java.desktop/com.sun.imageio.plugins.jpeg.JPEGImageReader.getNumImages(JPEGImageReader.java:400) at net.sourceforge.tess4j.Tesseract.doOCR(Tesseract.java:236) ... 2 more报错为什么
最新发布
07-18
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值