pdf, doc批量转换txt的问题可以问我

经过连续两周加班,作者解决了格式转换难题,使用开源工具xpdf实现PDF到TXT的高效转换,同时探索了DOC到TXT的方案。尽管存在挑战,如PDF中嵌入的子集字体或路径文字提取困难,但整体上实现了大量文件的快速处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

连续加了2个星期的班,好累。幸好写出了几个程序,要不然岂不是很惨。

 

这几天一直在研究格式转换的问题,pdf2txt, doc2txt的程序已经都能运行,编码、分页的问题都已经解决。虽然不完美,但可以解决绝大多数问题。

 

借用了开源工具xpdf的pdftotext,非常感谢。

最满意的地方是批量转换时效率较高,pdf2txt可以达到4秒/本,每本几百页,已经很快了,还要拆分txt,我容易嘛我。

 

pdf如果嵌入字体子集,或文字已转换为路径,还无法提取,在网上也没发现谁成功过。

 

doc2txt本来想用vb的,后来才发现vc也可以,我汗。。。 但效率不高,如果要分页导出txt的话,非常慢,不知哪位高手有快点的办法。

 

 

 

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值