你的免费本地 PDF 转 Markdown 神器！一键部署

最新推荐文章于 2025-09-08 22:09:36 发布

原创最新推荐文章于 2025-09-08 22:09:36 发布 · 505 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#pdf #数据挖掘

https://github.com/zyfhg/PDFMD_CPU

我就是这个项目的作者！

今天我要给大家种草我开发的 PDF 转 Markdown 工具 ——PDFMD_CPU！

你是否厌倦了那些超过固定页码或者大小就需要付费的 PDF 转换工具？
💳 那 PDFMD_CPU 是你的不二之选！

它基于开源 Marker 项目，专为 CPU 环境优化，即使在 4 核 8G 的硬件配置下也能流畅运行，完全不需要 GPU！💻❄️**

一键部署，轻松上手

我为大家准备了一键部署脚本哦！只需简单三步，就能搞定环境搭建，然后就可以批量转换 PDF 成 MD 格式的文件啦！🎉💻

运行以下命令一键安装环境：

chmod +x install.sh run.sh && ./install.sh

激活虚拟环境：

source marker_env/bin/activate

开始转换：

./run.sh

精准转化，具体案例

要转化的PDF扫描件示例：

转化后，MD文件内容：

强大功能，满足多样需求

多文件批量处理： 支持多个文件同时转换，轻松应对大量文档。

页面范围指定： 你可以指定转换特定页面范围，如“1-5”，实现精准转换。

多语言支持： 简体中文、繁体中文、英语一网打尽，语言包还可扩展，满足不同语言需求。

Gemini 多 API Key 利用： 支持配置多个 API Key，自动切换，实现“白嫖”式转换，突破 API 限制。

智能重试机制： 遇到问题自动重试，确保任务顺利完成。

详细识别记录： 生成完整转换统计和错误追踪日志，方便你随时查看转换情况。

**

简单易用，配置选择

**

使用轻松深入了解 run.sh 脚本里的参数配置，简单又实用哦！

PDF_FILES=(“04.pdf”) 📁 把多个 PDF 文件放进数组，就能一次性转换啦！例如：

PDF_FILES=(“file1.pdf” “file2.pdf”)

PAGE_RANGES=(“1-5”) 📄 想转部分页面？直接写页码范围，如“1-5”，只转第 1 到 5 页。

OUTPUT_DIR=“./output” 📁 转换后的文件放哪儿？默认是当前目录的“output”文件夹，可随意更改。

LOG_FILE=“./conversion.log” 📝 转换日志在哪？默认是“conversion.log”，帮你记录转换过程。

CSV_FILE=“./conversion_stats.csv” 📊 转换统计文件是“conversion_stats.csv”，能看转换详情。

BATCH_SIZE=10 ⚙️ 内存大小可调，控制单次处理页数，默认是 10 页。

MAX_RETRIES=2 🔄 转换失败自动重试，默认重试 2 次。

RETRY_DELAY=5 ⏱️ 两次重试间隔 5 秒。

LLM_API_KEYS=(“key1” “key2”) 🔑 配置多个 LLM API 密钥，超过上限，系统自动切换。

LLM_MODEL=“gemini-2.0-flash” 🤖 支持多种模型：gemini-2.0-flash （需 Google API）、llama3.2-vision （需本地部署）、gpt-4o-mini （需 OpenAI 官方 API）。

LLM_BASE_URL=“https://generativelanguage.googleapis.com/v1beta” 🌐 LLM 服务基础地址，默认是 Google 的 API 地址。⚠️ 链接因网络原因可能解析不成功，请检查链接并适当重试。

MEMORY_MAX=“6.5G” 🖥️ 内存上限默认 6.5G。

MEMORY_HIGH=“6G” ⚠️ 内存接近 6G 时触发警戒。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。