最近看论文实在是头大,花了一点时间用Python写了个小工具,实现了PDF的全文翻译(得意的笑)。试过其他的一些PDF翻译的方法,感觉不是很理想,来对比一下:
某狗:
某君:
Python完成的效果:
(某狗的是旧版本的论文,和我本机测试的略有不同),但还是可以看出效果,差强人意,专门对图表和公式进行了一些设置,其他的一些细节就没注意了,和某狗对比一下:
Python完成的效果:
某狗:
本人是win 64位,把代码打包了一下,同样是win 64位的朋友应该可以用。
原理
很简单,主要是站在了巨人的肩膀上。
- 调用PyMuPdf提取PDF里的文字,判断是不是正文。
- 调用google翻译,获取中文翻译。
因此对正文的判断有些问题,可能仍会有公式和表格乱码。PyMuPdf提取的文字字体和字号也有些问题,等有时间再弄吧,喜欢的话微信扫一扫给我打赏吧。