1.概述
2025年2月19日,历时5小时,安装PDFMathTranslate工具,通过ollama本地调用预训练大模型,成功运行,实现了英文科技论文机器翻译为中文,并保持原文件排版。
安装过程并不复杂,根据网上已有教程,一步步操作即可。
但安装完成后,输入pdf2zh -i或pdf2zh test.pdf后总是报错,命令行输出的最后一行错误信息如下。
huggingface_hub.errors.LocalEntryNotFoundError: An error happened while trying to locate the file on the Hub and we cannot find the requested files in the local cache. Please check your connection and try again or make sure your Internet connection is on.
查阅网络信息得知,这个问题是在尝试从 Hugging Face Hub 下载模型时出现了连接超时和文件未找到的错误。
网友方法1:
如果在启动时下载该模型遇到问题,可使用如下环境变量:
set HF_ENDPOINT=https://hf-mirror.com
但根据说明设置后,仍报出以上错误,该方法对本人环境无效。
网友方法2:
发现问题出现在代理服务器上,如果通过 all_proxy / http_proxy 等方式指定了代理,则就会如上报错,但没有代理又无法访问huggingface_hub,因此解决的方式是本机不要设置代理,在路由器上采用自动代理,或者在本地开启代理软件设置为全局代理模式。均可规避上述错误。
本人菜鸟,不会进行相关设置,故该方法对本人也无效。
重新梳理报错情况,发现引发该网络连接错误的原因是,pdf2zh的运行依赖于额外模型(wybxc/DocLayout-YOLO-DocStructBench-onnx),该模型需要从Hugging Face Hub 在线下载。
2.解决方法
解决思路:
用最笨最粗暴的办法,先手动下载该模型文件,放到指定路径;再手动修改相应代码段,将模型文件路径直接赋值到模型调用路径,以绕过下载,解决该问题。
第一步,从魔搭社区下载该模型。
下载链接为: